讷言敏行。
# 背景文章 Generative Modeling by Estimating Gradients of the Data Distribution 是 NIPS 2019 Oral. 文章提出了 Diffusion 动机,即:
Because gradients can be ill-defined and hard to estimate when the data resides on low-dimensional manifolds, we perturb the data with different levels of Gaussian noise, and jointly estimate the corresponding scores, i.e., the vector fields of gradients of the perturbed data distribution for all noise levels.
From the abstract.
这里的意思是,如果数据是高维流形上的低维分布,那么数据不是在各个方向上都存在良定义的梯度的,即 ill-defined. 所以,给数据加入不同程度的噪声之后(这个过程类似于 PS 中选择不同大小的羽化半径),就可以逼近原本的数据分布,同时可以获得各个方向上的良定义梯度。
这就是 diffusion 的基本想法。
# 模型# 前向生成过程x 0 ∼ q ( x ) \boldsymbol{x}_0 \sim q(\boldsymbol{x}) x 0 ∼ q ( x ) 是真实的数据分布,在 T T T 时间步内逐步加噪,得到一系列噪声样本 x 1 , x 2 , … , x T \boldsymbol{x}_1, \boldsymbol{x}_2, \dots, \boldsymbol{x}_T x 1 , x 2 , … , x T . 加噪过程可以表示为
q ( x t ∣ x t − 1 ) = N ( x t ; 1 − β t ( x t − 1 ) , β t I ) q(\boldsymbol{x}_t | \boldsymbol{x}_{t-1}) = \mathcal{N}(\boldsymbol{x}_t; \sqrt{1-\beta_t}(\boldsymbol{x}_{t-1}), \beta_t \boldsymbol{I}) q ( x t ∣ x t − 1 ) = N ( x t ; 1 − β t ( x t − 1 ) , β t I )
其中 { β t } \{\beta_t\} { β t } 是控制噪声水平的参数。这里还需要构造一些辅助变量,使得表达更简洁:
α t = 1 − β t \alpha_t = 1 - \beta_t α t = 1 − β t ;α ˉ t = ∏ i = 1 t α t \bar{\alpha}_t = \prod_{i=1}^t \alpha_t α ˉ t = ∏ i = 1 t α t ;ϵ i ∼ N ( 0 , I ) , i = 1 , 2 , … , t − 1 \boldsymbol{\epsilon}_i \sim \mathcal{N}(\boldsymbol{0}, \boldsymbol{I}), i = 1,2,\dots,t-1 ϵ i ∼ N ( 0 , I ) , i = 1 , 2 , … , t − 1 ;然后有
x t = α t x t − 1 + 1 − α t ϵ t − 1 = α t ( α t − 1 x t − 2 + 1 − α t − 1 ϵ t − 2 ) + 1 − α t ϵ t − 1 = α t α t − 1 x t − 2 + 1 − α t α t − 1 ϵ ˉ t − 2 = … = α ˉ t x 0 + 1 − α ˉ t ϵ . \begin{aligned} \boldsymbol{x}_t & = \sqrt{\alpha_t} \boldsymbol{x}_{t-1} + \sqrt{1-\alpha_t} \boldsymbol{\epsilon}_{t-1} \\ & = \sqrt{\alpha_t} \left( \sqrt{\alpha_{t-1}} \boldsymbol{x}_{t-2} + \sqrt{1-\alpha_{t-1}} \boldsymbol{\epsilon}_{t-2} \right) + \sqrt{1-\alpha_t} \boldsymbol{\epsilon}_{t-1} \\ & = \sqrt{\alpha_t \alpha_{t-1}} \boldsymbol{x}_{t-2} + \sqrt{1-\alpha_t\alpha_{t-1}}\bar{\boldsymbol{\epsilon}}_{t-2} \\ & = \dots \\ & = \sqrt{\bar{\alpha}_t} \boldsymbol{x}_0 + \sqrt{1-\bar{\alpha}_t} \boldsymbol{\epsilon}. \\ \end{aligned} x t = α t x t − 1 + 1 − α t ϵ t − 1 = α t ( α t − 1 x t − 2 + 1 − α t − 1 ϵ t − 2 ) + 1 − α t ϵ t − 1 = α t α t − 1 x t − 2 + 1 − α t α t − 1 ϵ ˉ t − 2 = … = α ˉ t x 0 + 1 − α ˉ t ϵ .
这样,就可以基于递推关系建立通项公式,可以看到每一步生成的随机变量 x t \boldsymbol{x}_t x t 都是训练数据 x 0 \boldsymbol{x}_0 x 0 加入高斯噪声 ϵ \boldsymbol{\epsilon} ϵ 的结果。
补充一点多元高斯分布的知识。好久不用,已经忘了不少。
假设随机向量 x ∈ R d \boldsymbol{x} \in \mathbb{R}^d x ∈ R d , 那么其服从的高斯分布由均值向量 μ \boldsymbol{\mu} μ 和协方差矩阵 Σ \boldsymbol{\Sigma} Σ 确定,表示为
N ( x ∣ μ , Σ ) = ( 2 π ) − d / 2 det ( Σ ) − 1 / 2 exp ( − 1 2 ( x − μ ) ⊤ Σ − 1 ( x − μ ) ) . \mathcal{N}(\boldsymbol{x}|\boldsymbol{\mu}, \boldsymbol{\Sigma}) = (2\pi)^{-d/2} \det(\boldsymbol{\Sigma})^{-1/2} \exp\left(-\frac{1}{2}(\boldsymbol{x} - \boldsymbol{\mu})^\top \boldsymbol{\Sigma}^{-1} (\boldsymbol{x} - \boldsymbol{\mu})\right). N ( x ∣ μ , Σ ) = ( 2 π ) − d / 2 det ( Σ ) − 1 / 2 exp ( − 2 1 ( x − μ ) ⊤ Σ − 1 ( x − μ ) ) .
# 反向扩散过程基于 Bayes 公式,
q ( x t − 1 ∣ x t , x 0 ) = q ( x t ∣ x t − 1 , x 0 ) q ( x t − 1 ∣ x 0 ) q ( x t ∣ x 0 ) ∝ exp \begin{aligned} q(\boldsymbol{x}_{t-1} | \boldsymbol{x}_t, \boldsymbol{x}_0) & = q(\boldsymbol{x}_t|\boldsymbol{x}_{t-1}, \boldsymbol{x}_0) \frac{q(\boldsymbol{x}_{t-1}| \boldsymbol{x}_0)}{q(\boldsymbol{x}_t | \boldsymbol{x}_0)} \\ & \propto \exp \end{aligned} q ( x t − 1 ∣ x t , x 0 ) = q ( x t ∣ x t − 1 , x 0 ) q ( x t ∣ x 0 ) q ( x t − 1 ∣ x 0 ) ∝ exp