# 自回归模型

自回归模型的第一个问题是顺序。注意到

$p(x_1, x_2) = p(x_1)p(x_2|x_1) = p(x_2)p(x_1|x_2).$

对于有自然顺序的，例如文本和图像，那么会按照自然顺序进行建模。

假设一个顺序性，那么

$p(x_1, x_2, \cdots, x_n) = p(x_1)p(x_2|x_1)p(x_3|x_1, x_2) \cdots p(x_n|x_1, x_2, \cdots, x_{n-1}).$

以 MNIST 数据集为例，对每一个条件分布使用含参的函数进行估计：

$\begin{aligned} & p(X_1 = 1; \alpha^1) = \alpha^1, p(X_1 = 0; \alpha^1) = 1 - \alpha^1; \\ & p(X_2 = 1|\bm{\alpha}^2) = \sigma(\alpha^2_0 + \alpha^2_1 X_1); \\ & \dots \\ & p(X_n = 1|\bm{\alpha}^n) = \sigma(\alpha^n_0 + \alpha^n_1 X_{n-1} + \alpha^n_2 X_{n-2} + \cdots + \alpha^n_{n-1} X_1). \end{aligned}$

但是这个模型过于简单，无法学到 MNIST 的分布并生成。这是线性模型过于简单导致的。

# NADE

NADE（Neural Autoregressive Distribution Estimator）模型，将神经网络和自回归模型结合起来。

# RNN

# CNN

卷积的核心是平移不变性和局部连接性。

CNN 本身不是一个 DAG, 因此需要使用 mask CNN. 但是 Mask CNN 不是一个真正的自回归模型，因为其感受野有盲区。

# LM

为什么 next token prediction 会让 LLM 效果很好？

一个基本的 insight 是，next token prediction 本身就是一个很强的任务，会让模型学会很多的规则。

模型的幻觉和创造力的来源是随机性。可以通过增加数据降低幻觉比例，但是基于概率的范式使得其无法完全避免这些现象。

# 自回归模型

# NADE

# RNN

# CNN

# LM

AI 的不足

学术规范随记