# 自回归模型

自回归模型的第一个问题是顺序。注意到

p(x1,x2)=p(x1)p(x2x1)=p(x2)p(x1x2).p(x_1, x_2) = p(x_1)p(x_2|x_1) = p(x_2)p(x_1|x_2).

对于有自然顺序的,例如文本和图像,那么会按照自然顺序进行建模。

假设一个顺序性,那么

p(x1,x2,,xn)=p(x1)p(x2x1)p(x3x1,x2)p(xnx1,x2,,xn1).p(x_1, x_2, \cdots, x_n) = p(x_1)p(x_2|x_1)p(x_3|x_1, x_2) \cdots p(x_n|x_1, x_2, \cdots, x_{n-1}).

以 MNIST 数据集为例,对每一个条件分布使用含参的函数进行估计:

p(X1=1;α1)=α1,p(X1=0;α1)=1α1;p(X2=1α2)=σ(α02+α12X1);p(Xn=1αn)=σ(α0n+α1nXn1+α2nXn2++αn1nX1).\begin{aligned} & p(X_1 = 1; \alpha^1) = \alpha^1, p(X_1 = 0; \alpha^1) = 1 - \alpha^1; \\ & p(X_2 = 1|\bm{\alpha}^2) = \sigma(\alpha^2_0 + \alpha^2_1 X_1); \\ & \dots \\ & p(X_n = 1|\bm{\alpha}^n) = \sigma(\alpha^n_0 + \alpha^n_1 X_{n-1} + \alpha^n_2 X_{n-2} + \cdots + \alpha^n_{n-1} X_1). \end{aligned}

但是这个模型过于简单,无法学到 MNIST 的分布并生成。这是线性模型过于简单导致的。

# NADE

NADE(Neural Autoregressive Distribution Estimator)模型,将神经网络和自回归模型结合起来。

# RNN

# CNN

卷积的核心是平移不变性和局部连接性。

CNN 本身不是一个 DAG, 因此需要使用 mask CNN. 但是 Mask CNN 不是一个真正的自回归模型,因为其感受野有盲区。

# LM

为什么 next token prediction 会让 LLM 效果很好?

一个基本的 insight 是,next token prediction 本身就是一个很强的任务,会让模型学会很多的规则。

模型的幻觉和创造力的来源是随机性。可以通过增加数据降低幻觉比例,但是基于概率的范式使得其无法完全避免这些现象。