最近在可能要学习一些通用基座模型的相关研究,因此在这里先简单整理一下新的想法。

# 通用基座模型的优缺点

要想设计一个通用基座模型,首先需要考虑模型是否具有应用价值。相比于正常的小模型、专有模型,通用模型的优缺点在哪里?会不会只是一个灌水的工具?

# 优点

通用基座模型的发展其实是在 GPT-3 之后才火起来的。因此,在其它领域的通用模型(如科学领域),现在其实还是需要借鉴语言模型成功的原理。如果从语言模型的角度来分析,那么一些优点包括:

  1. 泛化性:通用基座模型在大规模数据和多种任务上进行预训练,因此可以轻松泛化到不同类型的任务上,不需要专门的训练。对于需要快速适应新任务的场景,例如推荐系统的冷启动问题,以及少样本的问题中,通用模型具有天然优势。
  2. 内部规律的学习:相比于较小的模型,较大的模型在更大的数据集中,更可能获取到数据集的内部规律。较低级别的规律包括句法和语义信息等,较高级别的规律可能是一些知识或自然规律。因此,通用基座模型可以学习到更多的知识,从而在特定任务中表现更好。
  3. 规模效应降低成本:相比于训练多个小模型,大模型广泛的应用场景可以在全社会范围内降低知识推理和生成的成本。
  4. 新研究的催生:通用基座模型可以联合多个领域的知识,从而催生出新的研究领域和问题。在语言模型中,一个代表就是 AI 检索。

上述优点中,前两个归根结底都是泛化性的相关内容。后两个则是社会效益那种感觉的内容。

泛化性

在科学领域,通用的基座模型与语言的基座模型有哪些区别,可能同样拥有上述优点中的哪些?目前的探索还不够广泛。