# 自回归模型
自回归模型的第一个问题是顺序。注意到
p(x1,x2)=p(x1)p(x2∣x1)=p(x2)p(x1∣x2).
对于有自然顺序的,例如文本和图像,那么会按照自然顺序进行建模。
假设一个顺序性,那么
p(x1,x2,⋯,xn)=p(x1)p(x2∣x1)p(x3∣x1,x2)⋯p(xn∣x1,x2,⋯,xn−1).
以 MNIST 数据集为例,对每一个条件分布使用含参的函数进行估计:
p(X1=1;α1)=α1,p(X1=0;α1)=1−α1;p(X2=1∣α2)=σ(α02+α12X1);…p(Xn=1∣αn)=σ(α0n+α1nXn−1+α2nXn−2+⋯+αn−1nX1).
但是这个模型过于简单,无法学到 MNIST 的分布并生成。这是线性模型过于简单导致的。
# NADE
NADE(Neural Autoregressive Distribution Estimator)模型,将神经网络和自回归模型结合起来。
# RNN
# CNN
卷积的核心是平移不变性和局部连接性。
CNN 本身不是一个 DAG, 因此需要使用 mask CNN. 但是 Mask CNN 不是一个真正的自回归模型,因为其感受野有盲区。
# LM
为什么 next token prediction 会让 LLM 效果很好?
一个基本的 insight 是,next token prediction 本身就是一个很强的任务,会让模型学会很多的规则。
模型的幻觉和创造力的来源是随机性。可以通过增加数据降低幻觉比例,但是基于概率的范式使得其无法完全避免这些现象。