1. 多模态大模型和语言大模型的区别在哪里?本质挑战有什么不同?

多模态大模型的 scaling law 没有得到严格的验证。

CLIP 和 Flamingo 的相同点是什么?

两者都是多模态理解模型。

CLIP 为什么要采用对比学习训练?