What I cannot create, I do not understand. -- Richard Feynman

只有理解之后，才能创造。生成模型也是这样。

# 概述

# What is generative model?

模型分为两类：

生成式 (generative): 创造和理解数据。形式上是建模输入数据所有可观测概率的联合分布 $p_\theta(x) \approx p_{\mathrm{data}} (x)$ .
判别式 (discriminative): 对数据进行分类和识别。形式上是输入到输出的映射 $h: \mathcal{X} \to \mathcal{Y}$ .

生成式 AI 的基本问题是高维概率的表示、学习和推断。

生成式模型最早可以追溯到 18-19 世纪（高斯分布），近期的突破关键点在于模型表示。一个 timeline 如下：

最大似然估计就是选择一个最优的模型，满足其拟合的数据分布与输入分布最相似。在一维上，这一估计是有闭式解的，就是 “以频率估计概率”。

手写数字数据集 MNIST, 有 784 个维度，即有 $2^{784}$ 个可能的输入。这样就出现了问题：

Generative model is a probability distribution after all!

Chain rule:

$p(x_1, \dots, x_n) = \prod_{i=1}^n p(x_i | x_1, \dots, x_{i-1}).$

但是链式法则本身作为一种恒等变换，不会改变依赖的参数数量。如果对 $x_i$ 所依赖的变量作删减，那么可以实现参数数量减小，即转化为

$p(x_1, \dots, x_n) = \prod_{i=1}^n p(x_i | x_{\Lambda_i}), \quad \Lambda_i \subseteq \{1, \dots, i-1\}.$

这就是概率图模型，其参数数量依赖于最大的集合 $\Lambda_i$ 的大小，即 $2^{\max_i |\Lambda_i|}$ .

生成模型的设计分为三个维度：

一个散度满足：

散度不是距离，因为其不满足对称性和三角不等式。

可用的散度不需要估计 $p_{data}$ 的似然，而是只需要在 $p_{data}$ 中采样，即 $E_{x \sim p_{data}}[f(x;\theta)]$ .

然而，满足该要求的散度不一定用于所有模型。例如 KL 散度不用于 GAN, 因为 GAN 中没有对 $p_{data}$ 的估计。

也就是说，概率模型的选择深刻影响散度的选择。