# 混合高斯分布
不管 σ,μ 如何变化,使用高斯分布都是单峰的,因此在概率的估计上具有局限性。一种最简单的想法就是使用混合高斯分布,即多个高斯分布的求和:
p(x)=k=1∑KπkN(x∣μk,Σk).
其对数似然分布为
logp(D∣π,μ,Σ)=n=1∑Nlog(k=1∑KπkN(xn∣μk,Σk)).
这里的困难在于,log 内出现了求和。这样的模型变得复杂难以优化(至少没有闭式解),但带来的好处是模型的表达能力提升,这是一个 trade-off.
# 隐变量模型
隐变量模型 的想法是,在模型构建中存在某变量 z, 但是在数据中不显著表现出来。例如,对身高数据进行拟合,假设身高数据是双峰的,其双峰的原因是性别差异。但在数据收集中,只收集了身高分布,也只关注身高数据。那么,性别就是一个隐变量,它对身高分布有影响,但数据中并没有性别这个变量。
用数学符号来表示,就是拟合一个
pθ(x)=∫pθ(x∣z)p(z)dz.
这里使用积分将隐变量消去。
# 变分推断
logp(x)=log∫p(x∣z)p(z)dz=log∫qϕ(z∣x)p(x,z)qϕ(z)dz=logEqϕ(z∣x)[qϕ(z∣x)p(x,z)]≥Eqϕ(z∣x)[logqϕ(z∣x)p(x,z)]=ELBO(θ,q).
这就是变分推断的证据下界 (Evidence Lower Bound, ELBO).