数据压缩/模型
外观
< 数据压缩
信息论展示了如何为任何特定的符号系统构建一个完美的代码之后,人们发现,为新型数据设计新的编码约定变得相对容易,数字革命随之而来。一度人们想知道,什么东西不能存储在电脑里。
正是在这段时间,科学家们开始寻找更非凡的方法来降低存储成本。一位科学家找到了一个解决方案。他说,如果我们对数据进行建模,我们会发现数据中会产生某些模式。如果我们能够用最短的代码来编码最长和最常见的模式,并用更长的代码来编码较短且不太常见的模式,我们就可以减少文件的大小,而不会丢失任何数据。
不幸的是,他发现,优化一种类型数据文件长度的模型与优化另一种类型数据文件长度的模型并不相同。
另一位科学家注意到,当他查看数据的二进制代码时,有一些重复模式的字符串。他说,为什么不抽象出这些模式,只计算它们连续出现的次数,并对文件进行编码,以便代码能够有效地处理统计上显著的重复次数呢?例如,考虑一张纸上的一个字母。使用这种技术,所有由空白组成的空白将被简化为一个空格,以及一个数字来表示填充该行的空格数。
在每种情况下,科学家都对他们的数据进行了建模,并利用他们在模型中识别的某些东西,显著减少了存储空间。模型是他们减少存储空间而不丢失信息的杠杆。
现在要注意的是,我曾经与一个对如何编码数据有很棒想法的人共事。他想开发一种压缩方案,这种方案可以重新输入并进一步压缩。但他选择的技术没有包括对编码数据如何改变数据的模型。他今天还在寻找这种模型。