桃未芳菲杏未红,冲寒先已笑东风。
# 熵的定义
离散型随机变量 X 的熵 (entropy) 定义为
H(X):=−x∈X∑p(x)logp(x)
其中对数函数 log 的底为 2. 此外,由于 x→0limxlogx=0, 故约定 0log0=0, 即零概率项不影响熵的值。
注意到,可以采用随机变量 log(1/p(x)) 的数学期望表示熵,即
H(X)=Elogp(x)1
熵的单位为比特 (bit). 例如,抛掷均匀硬币的熵为 1 比特,随机选择一个单选题(四选项)的熵为 2 比特。
对于熵的底,如果采用底数 b, 则对应的熵记作 Hb(X). 特别地,底数为 e 时熵的单位为奈特 (nat).
# 熵的基本性质
- 非负性: H(X)≥0.
根据 p(x)∈[0,1] 即证。
- Hb(X)=(logba)Ha(X).
根据换底公式即证。
既然可以将熵看作一个以密度函数为自变量的函数,那么基本的考虑是关注密度函数变化时,熵的变化情况。于是构造随机变量 X, 取 1 的概率为 p, 取 0 的概率为 1−p, 其中 p∈[0,1]. 那么
H(X)=−plogp−(1−p)log(1−p)≜H(p)
通过计算容易得到 H(p) 是一个关于 p=1/2 对称的形似抛物线的凸函数。于是 p=1/2 时熵最大,为 1.
# 联合熵与条件熵
# 联合熵
联合熵是对两个随机变量的情形。
对于服从联合分布为 p(x,y) 的一对离散随机变量(X,Y), 其联合熵定义为
H(X,Y):=−x∈X∑y∈Y∑p(x,y)logp(x,y)
或表示为
H(X,Y)=−Elogp(X,Y)
# 条件熵
此外,还可以定义一个随机变量在另一个随机变量下的条件熵。
对于服从联合分布为 p(x,y) 的一对离散随机变量 (X,Y), 其条件熵定义为
H(Y∣X):=−x∈X∑y∈Y∑p(x,y)logp(y∣x)=−Elogp(Y∣X)
对于联合熵与条件熵,我们可以将其天然地联系起来。即 H(X,Y)=H(X)+H(Y∣X). 此定理称为链式法则。
# 相对熵和互信息
# 相对熵
对两概率密度函数 p(x),q(x), 称
DKL(p∥q):=x∈X∑p(x)logq(x)p(x)=Eplogq(x)p(x)
为相对熵 (relative entropy),又称 KL 散度 (Kullback-Leibler divergence) 或 KL 距离,记作 DKL(p∥q), 是两个密度分布之间距离的衡量。
此外,基于连续性,我们一般约定 0log00=0, 0logq0=0, plog0p=∞.
# 互信息
互信息 (mutual information) 是一个随机变量中包含另一个随机变量信息量的度量。
若两随机变量 X,Y 的联合概率密度为 p(x,y), 边际概率密度分别为 p(x),p(y), 则其互信息为 p(x,y) 与 p(x)p(y) 之间的相对熵,即:
I(X;Y):=x∈X∑y∈Y∑p(x,y)logp(x)p(y)p(x,y)=DKL(p(x,y)∥p(x)p(y))=Ep(x,y)logp(x)p(y)p(x,y)
基于互信息的定义,可以得到
I(X;Y)=H(X)−H(X∣Y)
因此,我们说互信息 I(X;Y) 是获取信息 Y 后,X 的不确定度的缩减量。
基于对称性,还可以得到
I(X;Y)
# 困惑度
困惑度 (perplexity) 是衡量一个概率分布模型拟合实际情况好坏的度量,其定义为
PP(p):=2H(p)=2−∑xp(x)log2p(x)=x∏p(x)−p(x)