网络编码入门/信息度量与常用不等式
本章旨在介绍香农信息度量 - 熵、互信息和相对熵的概念和一些基本性质。 还会介绍涉及这些概念的不等式,以帮助增强读者的理解,并为他们未来的学习扩充工具箱。
要理解网络编码,需要信息论的背景知识。 在信息论的基本概念中,一个基本的概念是香农信息度量 - **熵**、**互信息**和**相对熵**。 熵不考虑信息的语义方面,[1]它度量离散随机变量结果的不确定性。 互信息顾名思义,是指一个 d.r.v. 包含多少关于另一个 d.r.v. 的信息,或者一个 d.r.v. 对另一个 d.r.v. 的不确定性'消除'了多少。 然后我们来到相对熵,它可以看作互信息的推广。 它度量两个 d.r.v. 概率分布的'距离'。 在介绍完这三个基本概念后,我们将介绍进一步描述信息度量性质的不等式。
为了描述 **不确定性**,考虑抛硬币。 如果硬币不公平,比如,正面有 0.8 的概率出现,而反面只有 0.2 的概率出现。 那么你的不确定性就低了,因为你相当确定正面会朝上。 但是,如果它是一个公平的硬币,你就会更加不确定,因为正面和反面朝上的概率是相等的。 所以,如果你要使用数学表达式来描述结果的不确定性,这个表达式应该以期望的形式,并且当所有选择都同样可能时,它应该达到最大值。 此外,如果我们使用骰子而不是硬币,或者使用轮盘而不是骰子,那么不确定性应该随着选择数量的增加而增加。 也就是说,描述它的表达式应该随着选择数量,即字母表的大小而增加。 最后,如果你同时掷两个骰子,'3' 和 '4' 出现的概率应该与先掷一个骰子然后再掷另一个骰子的概率相同。 因此,如果顺序选择产生与单个选择相同的结果,那么这些选择的表达式应该能够结合起来,并且结合的结果应该等于单个选择的结果。 上述三个直观的属性是选择这种表达式的标准。
离散随机变量 令 为具有字母表 和 PMF 的离散随机变量。 从现在开始, 通常简写为 以方便起见,离散随机变量简写为 d.r.v。
熵 d.r.v. 的熵定义为
,换句话说,是 的期望值。
底数中的字母 'b' 指定了熵的单位。 如果 b = 2,则单位是 bit(二进制单位,注意它与另一个 'bit' -- 二进制数字的区别);b = e,它是 nat(自然单位)。 除非另有说明,否则我们使用 bit。 香农[1] 为我们上一节描述的三个标准专门定制了这种负对数期望的形式。
联合熵 我们定义了单个 d.r.v. 的熵,两个 d.r.v. 的定义是直接的
.
条件熵 在另一个 d.r.v. 条件下 d.r.v. 的熵定义为
.
现在我们可以用条件熵来表达第三个标准
。同时掷两个骰子或一个接一个地掷应该具有相同的随机性。这可以扩展到两个以上的离散随机变量。
。这被称为 **熵的链式法则**。
凸函数
熵的性质
[edit | edit source]非负性
不等式
[edit | edit source]詹森不等式