# GAN 回顾

价值函数

minGmaxDV(D,G)=Expdata(x)[logD(x)]+Ezpz(z)[1logD(G(z))]\min_{G}\max_{D}V(D,G) = \mathbb{E}_{\boldsymbol{x}\sim p_{\mathrm{data}}(\boldsymbol{x})}[\log D(x)] + \mathbb{E}_{\boldsymbol{z} \sim p_{\boldsymbol{z}}(\boldsymbol{z})}[1-\log D(G(\boldsymbol{z}))]

其中,x\boldsymbol{x} 表示模型的输入数据,pdata(x)p_{\mathrm{data}}(\boldsymbol{x}) 表示输入数据的分布。D(x)D(\boldsymbol{x}) 表示数据来自输入而不是生成器生成的概率。z\boldsymbol{z} 表示噪声,pz(z)p_{\boldsymbol{z}}(\boldsymbol{z}) 是噪声的先验分布。于是,1D(G(z))1-D(G(\boldsymbol{z})) 表示数据是生成器在噪声影响下生成的而不是输入的概率。

这样,可以通过模型训练,生成器逐渐生成更真实的数据,判别器更能判别真实数据和生成器生成的数据的差别。

# 概率分布差别的衡量

# 总变化量

总变化量 (Total Variation, TV) 定义如下:

δ(Pr,Pg)=supAΣPr(A)Pg(A)\delta(\mathbb{P}_r,\mathbb{P}_g) = \sup_{A \in \Sigma}|\mathbb{P}_r(A) - \mathbb{P}_g(A)|

# KL 散度

KL 散度 (Kullback-Leibler divergence) 定义为:

KL(PrPg)=log(Pr(x)Pg(x))Pr(x)dμ(x)KL(\mathbb{P}_r\|\mathbb{P}_g) = \int \log\left(\frac{P_r(x)}{P_g(x)}\right)P_r(x) \mathrm d\mu(x)

# JS 散度

JS 散度 (Jensen-Shannon divergence) 定义为对称的 KL 散度,即:

JS(PrPg)=KL(PrPm)+KL(PgPm)JS(\mathbb{P}_r\|\mathbb{P}_g) = KL(\mathbb{P}_r\|\mathbb{P}_m) + KL(\mathbb{P}_g\|\mathbb{P}_m)

其中Pm=(Pr+Pg)/2\mathbb{P}_m = (\mathbb{P}_r + \mathbb{P}_g)/2 是两概率分布的均值。

# Wasserstein 距离

Wasserstein 距离定义为:

W(Pr,Pg)=infγΠ(Pr,Pg)E(x,y)γxyW(\mathbb{P}_r, \mathbb{P}_g) = \inf_{\gamma \in \Pi(\mathbb{P}_r,\mathbb{P}_g)}\mathbb{E}_{(x,y) \sim \gamma}\|x-y\|

其中,Π(x,y)\Pi(x,y) 表示所有满足边缘分布为Pr,Pg\mathbb{P}_r, \mathbb{P}_g 的联合分布γ\gamma 的集合。

# 最优运输问题

ref: Notes of Optimal Transport—— 知乎

存储在不同地区的NN 个仓库(位置{xi}i=1N\{x_i\}_{i=1}^N,每个仓库有物资{Gi}i=1N\{G_i\}_{i=1}^N,需要将这些物资分发到MM 个不同的地方 (位置{yj}j=1M\{y_j\}_{j=1}^M,货物数量需求{hi}\{h_i\})。各个仓库及分发地点之间距离为{c(xi,yj)}i,j=1N,M\{c(x_i,y_j)\}_{i,j=1}^{N,M}。如何实现最有效的物资分配,即求

L=arg minΓ1iN1jMΓi,jc(xi,yj)L = \argmin_{\Gamma}\sum_{\substack{1\leq i\leq N \\ 1 \leq j \leq M}}\Gamma_{i,j}c(x_i,y_j)

问题进行连续化,得到

γ=arg minπxyπ(x,y)c(x,y)dydx=arg minπxyπ(x,y)c(x,y)dydx\gamma = \argmin_{\pi}\int_x\int_y\pi(x,y)c(x,y)\ \mathrm dy \mathrm dx = \argmin_{\pi}\int_x\int_y\pi(x,y)c(x,y)\ \mathrm dy \mathrm dx

如果确定了最优运输的参数γ\gamma,就可以求出 Wasserstein 距离。

# KR 对偶

ref: Kantorovich-Rubinstein duality

# 性质

Pr\mathbb{P}_r 是测度空间X\mathcal X 上的一个固定的概率分布。ZZ 是空间Z\mathcal Z 上的一个随机变量。构造含参的函数gθ(z):Z×RdXg_\theta(z): \mathcal{Z} \times \mathbb{R}^d \mapsto \mathcal{X},其中θRd\theta \in \mathbb{R}^d 含有dd 个参数。于是,

  1. gθ(z)g_\theta(z) 关于θ\theta 连续,那么W(Pr,Pg)W(\mathbb{P}_r, \mathbb{P}_g) 也关于θ\theta 连续。
  2. gg 满足李普希茨条件,那么W(Pr,Pg)W(\mathbb{P}_r, \mathbb{P}_g) 处处连续,且几乎处处可微。
  3. 上述性质对 JS 散度和 KL 散度不成立。