# 背景

# AE & VAE

自编码机 (Autoencoder, AE) 是一种借助 encoder-decoder 架构学习数据的潜在分布的方式。AE 通常用于无监督学习,其目标是将输入数据映射到潜在空间,并能够重构原始输入数据。encoder 将输入数据映射到潜在空间,decoder 将潜在空间映射回原始数据。AE 的损失函数通常是重构损失,即原始输入数据与重构数据之间的差异。

变分自编码机 (Variational Autoencoder, VAE) 则是在 AE 的基础上,将学习数据对应的隐向量转化为学习数据所在的参数分布。这样

# 自回归模型与扩散模型

# Bayesian Flow Networks

# 输入和发送分布

假设输入数据是 x=(x(1),x(2),,x(D))XD\boldsymbol{x} = (x^{(1)}, x^{(2)}, \dots, x^{(D)}) \in \mathcal{X}^D, 那么需要逼近的参数空间也是 DD 维度的,即 θ=(θ(1),θ(2),,θ(D))\boldsymbol{\theta} = (\theta^{(1)}, \theta^{(2)}, \dots, \theta^{(D)}). 且有

pI(xθ)=d=1DpI(x(d)θ(d)).p_I(\boldsymbol{x} | \boldsymbol{\theta}) = \prod_{d=1}^D p_I(x^{(d)} | \theta^{(d)}).

发送者分布

pS(yx;α)=d=1DpS(y(d)x(d);α(d)),p_S(\boldsymbol{y}|\boldsymbol{x}; \alpha) = \prod_{d=1}^D p_S(y^{(d)} | x^{(d)}; \alpha^{(d)}),

其中 αR+\alpha \in \mathbb{R}^+ 是精确度超参数,表示发送样本中包含的关于 x\boldsymbol{x} 的信息量。

# 输出分布

这里引入神经网络 Φ(θ,t):RD×RRD\Phi(\boldsymbol{\theta}, t):\mathbb{R}^D \times \mathbb{R} \to \mathbb{R}^D 用于实现参数更新,其中的参数 tt 是处理时间。于是,输出分布为

pO(xθ,t)=d=1DpO(x(d)Φ(d)(θ,t)).p_O (\boldsymbol{x}|\boldsymbol{\theta}, t) = \prod_{d=1}^D p_O (x^{(d)} | \Phi^{(d)}(\boldsymbol{\theta, t})).

即输出分布是可以利用上下文信息的。

# 接收方分布

pR(yθ;t;α)p_R(\boldsymbol{y} | \boldsymbol{\theta};t;\alpha)

# Bayesian 更新

Bayesian 更新过程基于已有参数 θ\boldsymbol{\theta}, 发送样本 y\boldsymbol{y} 和噪声超参 α\alpha 实现更新,即

θh(θ,y,α).\boldsymbol{\theta}' \leftarrow h(\boldsymbol{\theta}, \boldsymbol{y}, \alpha).