多模态大模型和语言大模型的区别在哪里?本质挑战有什么不同?多模态大模型的 scaling law 没有得到严格的验证。CLIP 和 Flamingo 的相同点是什么?两者都是多模态理解模型。CLIP 为什么要采用对比学习训练?