今天在思考模型设计的时候发现了一个问题,而且没弄明白。就是生成模型有没有全局特征把控的能力,以及如何把控。

基于 ChatGPT, diffusion 似乎比 flow model 具有更好的全局特征把控能力。因为 flow model 学习的是局部向量场,但 diffusion 学习的是一个全局的噪声。但其实也存疑,因为如果显式将局部特征加入到 loss 中,那么局部特征的整体求和也是全局特征。

对于语言模型,全局特征的把控似乎也没有什么借鉴之处。语言模型的全局特征,比如生成文字的文风,是基于 prompt 限制得到的,并没有更直接的控制方式。

另外想到的一个问题是:全局 - 局部之争是与生成模型(即概率建模的方式)更相关,还是与生成模型中神经网络的架构(比如 Transformer 比 CNN 似乎更能把握全局特征)更相关?

嗯,GPT 的答案我也没完全弄明白是否正确。