网络编码入门/信息度量与常用不等式

摘要

本章旨在介绍香农信息度量 - 熵、互信息和相对熵的概念和一些基本性质。还会介绍涉及这些概念的不等式，以帮助增强读者的理解，并为他们未来的学习扩充工具箱。

介绍

要理解网络编码，需要信息论的背景知识。在信息论的基本概念中，一个基本的概念是香农信息度量 - **熵**、**互信息**和**相对熵**。熵不考虑信息的语义方面，^[1]它度量离散随机变量结果的不确定性。互信息顾名思义，是指一个 d.r.v. 包含多少关于另一个 d.r.v. 的信息，或者一个 d.r.v. 对另一个 d.r.v. 的不确定性'消除'了多少。然后我们来到相对熵，它可以看作互信息的推广。它度量两个 d.r.v. 概率分布的'距离'。在介绍完这三个基本概念后，我们将介绍进一步描述信息度量性质的不等式。

为了描述 **不确定性**，考虑抛硬币。如果硬币不公平，比如，正面有 0.8 的概率出现，而反面只有 0.2 的概率出现。那么你的不确定性就低了，因为你相当确定正面会朝上。但是，如果它是一个公平的硬币，你就会更加不确定，因为正面和反面朝上的概率是相等的。所以，如果你要使用数学表达式来描述结果的不确定性，这个表达式应该以期望的形式，并且当所有选择都同样可能时，它应该达到最大值。此外，如果我们使用骰子而不是硬币，或者使用轮盘而不是骰子，那么不确定性应该随着选择数量的增加而增加。也就是说，描述它的表达式应该随着选择数量，即字母表的大小而增加。最后，如果你同时掷两个骰子，'3' 和 '4' 出现的概率应该与先掷一个骰子然后再掷另一个骰子的概率相同。因此，如果顺序选择产生与单个选择相同的结果，那么这些选择的表达式应该能够结合起来，并且结合的结果应该等于单个选择的结果。上述三个直观的属性是选择这种表达式的标准。

定义

离散随机变量 令 $X$ 为具有字母表 $??$ 和 PMF $P_{X}(x)=Pr(X=x),x\in X.$ 的离散随机变量。从现在开始， $P_{X}(x)$ 通常简写为 $P(x)$ 以方便起见，离散随机变量简写为 d.r.v。

熵 d.r.v. 的熵定义为

$H(X)=-\sum P(x)\log _{b}P(x)$ ，换句话说，是 $log_{b}{\frac {1}{P(x)}}$ 的期望值。

底数中的字母 'b' 指定了熵的单位。如果 b = 2，则单位是 bit（二进制单位，注意它与另一个 'bit' -- 二进制数字的区别）；b = e，它是 nat（自然单位）。除非另有说明，否则我们使用 bit。香农^[1] 为我们上一节描述的三个标准专门定制了这种负对数期望的形式。

联合熵 我们定义了单个 d.r.v. 的熵，两个 d.r.v. 的定义是直接的

$H(X)=-\sum _{x,y\in S(X,Y)}P(x,y)\log P(x,y)$ .

条件熵 在另一个 d.r.v. 条件下 d.r.v. 的熵定义为

$H(X|Y=y)=-\sum _{x\in X}P(x|y)\log P(x|y)$ .

现在我们可以用条件熵来表达第三个标准

$H(XY)=H(X)+H(Y|X)=H(Y)+H(X|Y)$ 。同时掷两个骰子或一个接一个地掷应该具有相同的随机性。这可以扩展到两个以上的离散随机变量。

$H(X_{1},X_{2},...,X_{N})=\sum _{n=1}^{N}H(X_{N}|X_{1},X_{2},...,X_{N-1})$ 。这被称为 **熵的链式法则**。

凸函数

熵的性质

非负性

不等式

詹森不等式

参考文献

↑ ^a ^b C. E. Shannon, “A Mathematical Theory of Communication”, The Bell System Technical Journal, vol. 27, no. July, October, pp. 379–423, 623–656, 1948.

[cesbell-1] C. E. Shannon, “A Mathematical Theory of Communication”, The Bell System Technical Journal, vol. 27, no. July, October, pp. 379–423, 623–656, 1948.

[1]