桃未芳菲杏未红,冲寒先已笑东风。

#

# 熵的定义

离散型随机变量 XX (entropy) 定义为

H(X):=xXp(x)logp(x)H(X):=-\sum_{x\in\mathcal{X}}p(x)\log p(x)

其中对数函数 log\log 的底为 22. 此外,由于 limx0xlogx=0\displaystyle \lim_{x\to0}x\log x = 0, 故约定 0log0=00\log0=0, 即零概率项不影响熵的值。

注意到,可以采用随机变量 log(1/p(x))\log(1/p(x)) 的数学期望表示熵,即

H(X)=Elog1p(x)H(X) = \mathbb{E}\log\frac{1}{p(x)}

熵的单位为比特 (bit). 例如,抛掷均匀硬币的熵为 11 比特,随机选择一个单选题 (4 选项) 的熵为 22 比特。

对于熵的底,如果采用底数 bb, 则对应的熵记作 Hb(X)H_b(X). 特别地,底数为 ee 时熵的单位为奈特 (nat)。

# 熵的基本性质

  1. 非负性: H(X)0H(X) \geq 0.

    根据 p(x)[0,1]p(x) \in [0,1] 即证。

  2. Hb(X)=(logba)Ha(X)H_b(X) = (\log_b a) H_a(X).

    根据换底公式即证。

既然可以将熵看作一个以密度函数为自变量的函数,那么基本的考虑是关注密度函数变化时,熵的变化情况。于是构造随机变量 XX, 取 11 的概率为 pp, 取 00 的概率为 1p1-p, 其中 p[0,1]p \in [0,1]. 那么

H(X)=plogp(1p)log(1p)H(p)H(X) = -p\log p - (1-p)\log (1-p) \triangleq H(p)

通过计算容易得到 H(p)H(p) 是一个关于 p=1/2p=1/2 对称的形似抛物线的凸函数。于是 p=1/2p=1/2 时熵最大,为 11.

# 联合熵与条件熵

# 联合熵

联合熵是对两个随机变量的情形。

对于服从联合分布为p(x,y)p(x,y) 的一对离散随机变量(X,Y)(X,Y),其联合熵定义为

H(X,Y)xXyYp(x,y)logp(x,y)H(X,Y) \coloneqq -\sum_{x\in\mathcal{X}}\sum_{y\in\mathcal{Y}}p(x,y)\log p(x,y)

或表示为

H(X,Y)=Elogp(X,Y)H(X,Y) = -\mathbb{E}\log p(X,Y)

# 条件熵

此外,还可以定义一个随机变量在另一个随机变量下的条件熵。

对于服从联合分布为 p(x,y)p(x,y) 的一对离散随机变量 (X,Y)(X,Y), 其条件熵定义为

H(YX):=xXyYp(x,y)logp(yx)=Elogp(YX)H(Y|X) := -\sum_{x\in\mathcal{X}}\sum_{y\in\mathcal{Y}}p(x,y)\log p(y|x) = -\mathbb{E}\log p(Y|X)

对于联合熵与条件熵,我们可以将其天然地联系起来。即 H(X,Y)=H(X)+H(YX)H(X,Y) = H(X) + H(Y|X). 此定理称为链式法则

# 相对熵和互信息

# 相对熵

对两概率密度函数 p(x),q(x)p(x),q(x), 称

DKL(pq)xXp(x)logp(x)q(x)=Eplogp(x)q(x)D_{\mathrm{KL}}(p\|q) \coloneqq \sum_{x \in \mathcal X}p(x)\log \frac{p(x)}{q(x)} = \mathbb{E}_p\log\frac{p(x)}{q(x)}

相对熵 (relative entropy),又称 KL 散度 (Kullback-Leibler divergence) 或 KL 距离,记作 DKL(pq)D_{\mathrm{KL}}(p\|q), 是两个密度分布之间距离的衡量。

此外,基于连续性,我们一般约定 0log00=00\log\frac{0}{0} = 0, 0log0q=00\log\frac{0}{q} = 0, plogp0=p\log\frac{p}{0} = \infty.

# 互信息

互信息 (mutual information) 是一个随机变量中包含另一个随机变量信息量的度量。

若两随机变量 X,YX,Y 的联合概率密度为 p(x,y)p(x,y), 边际概率密度分别为 p(x),p(y)p(x), p(y), 则其互信息为 p(x,y)p(x,y)p(x)p(y)p(x)p(y) 之间的相对熵,即:

I(X;Y)xXyYp(x,y)logp(x,y)p(x)p(y)=DKL(p(x,y)p(x)p(y))=Ep(x,y)logp(x,y)p(x)p(y)I(X;Y) \coloneqq \sum_{x \in \mathcal X}\sum_{y \in \mathcal Y}p(x,y)\log\frac{p(x,y)}{p(x)p(y)} = D_{\mathrm{KL}}(p(x,y)\|p(x)p(y)) = \mathbb{E}_{p(x,y)}\log\frac{p(x,y)}{p(x)p(y)}

基于互信息的定义,可以得到

I(X;Y)=H(X)H(XY)I(X;Y) = H(X) - H(X|Y)

因此,我们说互信息 I(X;Y)I(X;Y) 是获取信息 YY 后,XX 的不确定度的缩减量。

基于对称性,还可以得到

I(X;Y)I(X;Y)

# 困惑度

困惑度 (perplexity) 是衡量一个概率分布模型拟合实际情况好坏的度量,其定义为

PP(p)2H(p)=2xp(x)log2p(x)=xp(x)p(x)PP(p) \coloneqq 2^{H(p)} = 2^{-\sum_x p(x)\log_2p(x)} = \prod_xp(x)^{-p(x)}

更新于