# GAN 回顾
价值函数
GminDmaxV(D,G)=Ex∼pdata(x)[logD(x)]+Ez∼pz(z)[1−logD(G(z))]
其中,x 表示模型的输入数据,pdata(x) 表示输入数据的分布。D(x) 表示数据来自输入而不是生成器生成的概率。z 表示噪声,pz(z) 是噪声的先验分布。于是,1−D(G(z)) 表示数据是生成器在噪声影响下生成的而不是输入的概率。
这样,可以通过模型训练,生成器逐渐生成更真实的数据,判别器更能判别真实数据和生成器生成的数据的差别。
# 概率分布差别的衡量
# 总变化量
总变化量 (Total Variation, TV) 定义如下:
δ(Pr,Pg)=A∈Σsup∣Pr(A)−Pg(A)∣
# KL 散度
KL 散度 (Kullback-Leibler divergence) 定义为:
KL(Pr∥Pg)=∫log(Pg(x)Pr(x))Pr(x)dμ(x)
# JS 散度
JS 散度 (Jensen-Shannon divergence) 定义为对称的 KL 散度,即:
JS(Pr∥Pg)=KL(Pr∥Pm)+KL(Pg∥Pm)
其中Pm=(Pr+Pg)/2 是两概率分布的均值。
# Wasserstein 距离
Wasserstein 距离定义为:
W(Pr,Pg)=γ∈Π(Pr,Pg)infE(x,y)∼γ∥x−y∥
其中,Π(x,y) 表示所有满足边缘分布为Pr,Pg 的联合分布γ 的集合。
# 最优运输问题
ref: Notes of Optimal Transport—— 知乎
存储在不同地区的N 个仓库(位置{xi}i=1N,每个仓库有物资{Gi}i=1N,需要将这些物资分发到M 个不同的地方 (位置{yj}j=1M,货物数量需求{hi})。各个仓库及分发地点之间距离为{c(xi,yj)}i,j=1N,M。如何实现最有效的物资分配,即求
L=Γargmin1≤i≤N1≤j≤M∑Γi,jc(xi,yj)
问题进行连续化,得到
γ=πargmin∫x∫yπ(x,y)c(x,y) dydx=πargmin∫x∫yπ(x,y)c(x,y) dydx
如果确定了最优运输的参数γ,就可以求出 Wasserstein 距离。
# KR 对偶
ref: Kantorovich-Rubinstein duality
# 性质
令Pr 是测度空间X 上的一个固定的概率分布。Z 是空间Z 上的一个随机变量。构造含参的函数gθ(z):Z×Rd↦X,其中θ∈Rd 含有d 个参数。于是,
- 若gθ(z) 关于θ 连续,那么W(Pr,Pg) 也关于θ 连续。
- 若g 满足李普希茨条件,那么W(Pr,Pg) 处处连续,且几乎处处可微。
- 上述性质对 JS 散度和 KL 散度不成立。