跳至内容

编码与信息论

25% developed
来自维基教科书,开放的书籍,为开放的世界

编码理论枯燥吗?

[编辑 | 编辑源代码]

这取决于你从哪个角度来看。宇宙中的一切都是对其他事物的编码。你可以将颜色、光、声音、音乐、玩具熊、你的朋友以及许多其他事物视为对能量的编码。

什么是编码理论?

[编辑 | 编辑源代码]

关键思想是“最高效”;这在生活中经常出现。例如,“去上班的最佳方式是什么?”或“最便宜的午餐是什么?”这些实际上是在问,根据某些测量方式,从一个点到另一个点的最有效路径是什么。

在本文中,应该记住术语“信息”是用抽象的方式使用的。它可以表示普通意义上的信息;但它也可以表示模式、能量、声音或许多其他事物。

因此,编码理论是对如何以最有效的方式对信息(或行为、思想等)进行编码的研究。它还涉及在环境中消除噪声的方法,以便能够清晰地接收原始消息。但这也要以最有效的方式完成。

宇宙中的信息流

[编辑 | 编辑源代码]

能量不断地从一种形式转化为另一种形式。热能转化为光能,光能转化为热能,势能转化为动能等等。可以将整个宇宙视为一台计算机,物质视为数据。那么,你就拥有一个持续的数据转换器。如果这看起来过于限制,并引发了关于自由意志等问题,那么你只需以这种方式看待无生命的宇宙。

编码理论在音乐、天文学、政治中的应用

[编辑 | 编辑源代码]

海因里希·申克尔是最著名的音乐理论家之一。他并不为大众所熟知,因为你几乎必须是音乐专业的研究生才能理解他的理论。希望那些研究过他的理论的人不会像贝多芬一样对本节中的过度简化感到愤怒。但希望更多的人能从这个角度理解他的理论。

他的主要思想在一生中逐渐形成了现在的样子。在他去世时,他的思想仍在发展中,他最终会走到哪里还有待商榷。合理的猜测是他会得出结论:所有音乐都存在于它被写出来之前。就像石头掉入水中会产生向外辐射的波浪一样,音乐也具有不可改变的自然形式,无法改变;它源于声音的初始扰动,就像池塘中的波浪一样。因此,音乐只是在递归地演奏,作曲家的工作是找到“即兴演奏的轨迹”,将初始扰动演奏出来。

他的核心概念是“自然的和弦”;他认为所有的音乐都起源于这个和弦,并最终回归到这个和弦,就像傅里叶级数干涉图样的反馈版本,从敲击中国锣产生的声音中出现,然后又回归到中国锣一样。这个和弦本身是基于物理学的,科学家们都很熟悉它。但在这里,我们看到了编码理论的一个例子。也就是说,如果音乐已经存在,只是在回到平衡状态,那么它实际上是在寻找到达那个和弦的最有效路径。它不应该浪费任何能量,可以这么说,这就是赋予它美感和自然艺术性的原因,就像雨或雪具有自然艺术性一样。因此,最深刻的音乐是对声音信息的编码,它与香农熵相匹配。(从某种意义上说,这里存在概率,因为可以将声音视为布朗运动,将波浪视为布朗运动的全局效应)。

注意,音乐中没有错误校正。如果你错过了,你就错过了。有趣的是,如果看到申克尔会对在许多其他无线电广播、喇叭鸣叫和噪音的环境中进行通信会说些什么。也许他会想出一种“噪音中的音乐”理论,就像香农为其他类型的资讯做的那样。

天文学

[编辑 | 编辑源代码]

一位作者提出了这样一个问题:“为什么哥白尼看起来比他之前的理论家更正确?”本轮模型和哥白尼的太阳系模型都可以用来预测行星的位置。他得出结论:人类认为哥白尼更正确,因为他的想法更简单——关键是简单。因此,可以说他找到了对太阳系资讯的更有效编码,而人类在不知情的情况下就热衷于编码理论!

是什么让以下政治声明如此有力量(或者至少很有名)?

      Ich...bin...ein...Berliner! (cheers)
      Ask not what your country can do for you, but what you can do for your country

可以说,赋予这些声明力量的是表达的效率;它们是对许多感受、态度和认知的插值;它们是对情感和心理信息的有效编码。

一个现代案例:手机技术

[编辑 | 编辑源代码]

在撰写本文时,手机十分重要。但手机短信收费。那么如何最小化成本呢?在一些第三世界国家,人们正在开发复杂的语言用于数据传输,帮助他们节省开支。例如,可以将“7点钟和你通话”的信息编码为“tk 2 u @ 7”。这种方法在 克劳德·香农 描述的“无噪声通信”情况下是有效的。也就是说,只要消息正确接收,就不会造成损害。但香农也指出,由于存在噪声,一定程度的冗余可能是重要的。他注意到,英语似乎包含大约50%无意义的语法、字母、措辞等等。他认为,这是思维自然功能的结果,即有意添加多余信息以进行错误校正,由听众或读者来完成。

动物也以各种方式有效地编码信息。鸣叫、叫声、咆哮、鸣叫、喵叫、汪叫,甚至大象用脚在地上跺来与远处的大象交流;这些都是尝试尽可能高效地编码信息的例子。

此时,一个关于手机技术的有趣问题变得明显:是否存在一种最优的手机通信编码方法?为了有效地回答这个问题,需要对所有发送的消息进行平均(例如在一个区域内),然后将结果转换为二进制,然后构建一个 随机过程(本质上是一台以各种模式出现的概率来发送平均消息的计算机),它与这些消息基本等效。此时可以计算熵并开发匹配的代码。但挥之不去的问题是:给定一个通信模式(一个随机过程),如何生成一个高效的编码方案?概括地说,人们正在寻找一个 黑盒子,它接收一个随机过程并产生一个代码。

                         average message  --->  black box --->  best encoding scheme

强大的解决方案:神经网络

[edit | edit source]

可以设计一个 神经网络,它本质上可以自行编写程序。可以对大量随机选择的随机过程进行训练,同时为生成更高效的代码提供更高的奖励,而为生成效率较低的代码提供更低的奖励。在许多情况下,几乎可以肯定地近似估计熵。

神经网络是对数据的插值。随着它们学习模式,它们可以被更精细地调整等等。然而,这不是可能在高中被教导为 拉格朗日插值的那种有趣的插值;尽管这是一个有趣的游戏,这种方法通常涉及单个变量和几个数据点。另一方面,神经网络可能非常密集,从某种意义上说,变量的数量可能非常大,数据点的数量可能达到数百万。因此,没有办法使用普通方法对这种数据进行插值。

微分几何 的支持者提出,应该仔细研究神经网络,以产生一个可靠的数学理论,用于在所有情况下准确地预测它们的行為。但这项任务非常复杂,目前几乎没有希望实现目标。因此,一般的研究仍然更像是一门实验科学。然而,在实践中,网络已在许多情况下得到非常有效的应用,并且非常引人注目。

声音之河

[edit | edit source]

当作曲家创作一首歌曲时,他或她可能首先得到旋律,然后可能想为它添加“和弦”。也就是说,他或她正在给旋律配和声。有时,这个人会在每个点都为旋律添加一个美妙的和弦,但和弦在长远来看并不匹配。局部,音乐听起来很好,但整体听起来相当可怕。然而,当他们改变其中一个和弦以使其在整体上听起来不错时,它会影响到其他地方意外和弦的质量。所以你最终得到一个几乎不可能解开的结。

专业术语是合唱的和声化。这是大学音乐训练的标准部分。可以看出,要精通它可能需要大量的练习和训练。(在上一段中,几个旋律的概念被简化为“和弦”的概念,以使其更容易阅读)。计算机可以用来解决这类问题吗?

可以,但不是普通的计算机。在过去十年中,神经网络被大量用于和声化合唱。它们非常成功,人们正在投入大量时间和精力进行研究。

所以你可以看到,全局和声是声音信息的插值,以最大限度地提高音乐的整体美感。这是一个效率问题。逐步从一点移动到另一点,每一步都瞬间优化。这正是河流流动的方式,在每一步都瞬间最大限度地提高效率。(读者可能还记得从微积分中使用“瞬间”一词)。

计算机程序作为编码

[edit | edit source]

如果你要告诉出租车司机去哪里,你会花十分钟来做吗?为什么不直接给他地址就走?如果你要告诉修理工你的车出了什么问题,为什么花几天时间解释呢?为什么不解释成一句话呢?

同样,告诉计算机做什么的程序可以非常冗长,也可以非常精确。这可能决定一个大型编程项目是否可以解决,它也可能决定一个价值数百万美元的合同续约是否能够达成。这个过程本质上概括为 数值分析

任务是找到最有效的程序(在时间和/或存储方面);人们为此奉献了他们一生的职业。有许多专业期刊专门讨论这个问题。但这表明,除了程序员的努力之外,自然界中还存在着预先存在的最佳程序。也就是说,程序有一个熵,就像彗星或自然界中发生的其它实体的行为有一个可预测的模式一样。

因此,我们很难将“要解决的问题”的概念与“问题的解决方案”的概念分开。同样,它们似乎作为自然界中的对偶对象出现,就像 冥王星卡戎 的行为完全相互依赖一样。因此,人们开发了一个不同的复杂性概念,这就是 柯尔莫哥洛夫 的复杂性。它指出,信息(或光或声音)与生成它的最有效程序(或句子)相同。但我们必须找到最有效的程序;因此,神经网络可以再次用作尝试解决问题的工具。有趣的是,一种以人脑为模型的技术(自然界中存在的计算机)应该被用来找到解决自然界中发生的问题的方案。

对柯尔莫哥洛夫复杂性的一种有趣的概括是对无穷多个(或者可能是有限多个)并行处理器的柯尔莫哥洛夫复杂性。也就是说,生成一个模式的最有效句子是什么,而这个模式是通过多个处理器同时工作产生的?可以看出,答案将取决于允许的处理器总数。

测地线和星系

[edit | edit source]

什么是 测地线?它只是从点 A 到点 B 的最短距离。但那不就是一条直线吗?如果你在平面上工作,那就是。但平面只是无穷多个曲面的 极限。那么,那些曲面上的最短距离是什么?这正是问题所在,而且可能非常有趣。

当然,现在可以看出这与生活有什么关系。在日常生活中,有许多变量和数据波动一直发生,从一种情况到另一种情况的最有效路径可以被认为是测地线。所有可能情况的集合可以被认为是一个曲面。因此,最佳行动计划将是信息的最佳编码。编码越差,行动效果越差。编码越好,行动效果越好。请记住,变量越现实,编码就越有价值。

例如,如果一个年轻男子想要遇见某个女人,他不希望花 30 个生命来完成它。因此,他的行动计划可以被认为是在所有生活情景的表面上的测地线,他编码的信息越好,他的行动就越有价值。

另一个例子是一只老鼠学习解决迷宫。它必须反复地重新编码它头脑中的信息,以便改进它的行动。因此,它正在计算迷宫信息 流形 的测地线。

无生命宇宙中的所有事物都遵循测地线。这就是星系旋转的方式,也是赋予它们力量和美丽的原因。

华夏公益教科书