首先是随便说说:

  1. 目前的 o1 或者 R1 已经可以在文字方面(文科)做一些比较深入的研究了,比如 OpenAI 的 Deep Research.
  2. 这门课还是要好好听,拓展视野范围。
  3. AI 是 “显学”,现在街边的卖菜老大爷都在聊 deepseek. 因此要有使命感。AI 在后两年会有阶段性的迈进。
  4. 要形成自己的思考方式,要有自己的判断。
  5. AGI 还有一到两年。

# 历史

信息检索需求最早出现于图书馆。

1982 Belkin 基于信息供给与需求匹配的检索:

  1. 信息需求的产生来源于人的认知。
  2. 需求与供给的匹配由计算机实现。
  3. 在认知上解决信息需求。

信息检索的根本困难是:

  1. 信息表示:
    1. 信息表示的困难。最早的表示方式是词袋模型 (bag of words).
    2. 世界知识的缺失。人可以读懂知识是因为大脑中有一个基本的世界知识模型。但是大模型出现之前,该问题一直无法解决。
  2. 信息需求表示:
    1. 需求表达和理解的困难
    2. 用户、场景知识缺失
  3. 需求 - 供给匹配:
    1. 供需两端有语义鸿沟 (semantic gap)

上述三个问题整合起来,就是需要一个统一的、全局的知识表示和推理,也就是大模型

因此,大模型时代之前的信息检索是困难的,很多根本问题在方法论上没有得到突破。

# 预训练模型与信息检索

出现预训练模型后,信息检索发生了范式变革:

  1. 用于显著改进和增强传统信息检索的各个环节
  2. 构建面向信息检索的预训练模型
  3. 探索预训练模型的

# 预训练在文档表示中的应用

# 长文档建模

最早的信息检索都是基于词的,只能处理简单问题。

  • 核心难点:文本建模的一个大问题就是长文档建模。BERT 是全连接图,因此只能处理 512 tokens.
  • 解决方案:
    • 稀疏注意力:Longformer, Bigbird
    • Passage 建模:BERT-FirstP, PARADE, IDCM
  • 问题:
    • 稀疏注意力:注意力选择缺乏理论支撑。

# Socialformer

使用社会网络理论对稀疏注意力建模。

pipeline: 生成概率图 -> 采样

# MIR

现有模型忽视了 Passage 之间的关系。Passage 之间的关系包括三类:

  • 实体级别的关联
  • 句子级别的关联
  • 段落级别的关联

# 预训练在用户需求中的应用

# 用户表达信息需求的方式

  • 关键词查询
  • 多轮关键词查询
  • 问答
  • 多轮问题
  • 长期多轮

需求可以近似看作带噪声的多层次序列。

# 对话式搜索

  • 从多轮的自然语言中理解用户的真实信息需求并进行检索
  • 对话上下文中存在复杂的

# 面向信息检索的 WEB 预训练

最早的预训练模型是面向自然语言理解的,在文本数据上训练。那么能不能面向 WEB 信息检索做预训练呢?

面向 NLP 的预训练模型在信息检索上有许多缺陷:

  • 模型的训练目标与检索任务不匹配
  • 忽略了海量互联网数据上的结构信息
  • 忽略了多模态信息
  • 忽略了用户搜索行为的深入理解

此外,互联网上有海量数据可供使用。

# 互联网的结构

即希望让预训练模型理解互联网上的结构化信息:

  • 理解 Web 上的链接和锚文本 (HARP): 链接是很强的监督信号。
  • 理解页面的内容、结构和视觉 (Webformer): 页面结构中蕴含弱监督信息。于是使用层次化 Transformer 分析 HTML 中的 DOM 树。训练该模型很有趣,可以直接 mask 树中的一个节点,而是 mask 一个词。

现在有很多模型都试图超越 Transformer 架构和 next token pred 范式。那么 next token pred 范式为什么目前有如此好的效果?

大模型中所有的复杂性都是在训练中自动浮现出来的。正因为 GPT 的 next token pred 范式比 BERT 的完形填空任务更困难,所以都训练出来之后 GPT 的效果更好。——ilya

# 面向多模态检索的预训练

2020 年,雁栖湖开会,投票最困难的方向是多模态大模型。最难解决的问题是模态之间的语义鸿沟。当时 cjn 市长特批买了 2000 张 A-100.

五道口大模型简史 - StormBlafe 的文章 - 知乎

为什么 OpenAI 能坚持下去但是 BAAI 坚持不下去?

  1. OpenAI 有信念。
  2. BAAI 卡是政府给的。

# 预训练模型为核心的新检索

# Model-based IR

后续工作包括:

  • Dynamic Retriever
  • WebBrain

# 结语

大模型彻底解决了统一、全局的知识表示和推理问题。最开始的研究是将大模型用到传统的检索 pipeline 中,后面就出现了专用于检索的方法。现在的大模型即通用大模型是对人脑的复现。通用大模型首先是做了文档排序,后面改进为直接生成检索结果(基于检索的结果生成)而非 top-k 排序。这就是大模型发展的进程。

因此,我们真正想要的是《钢铁侠》中的贾维斯、《超能陆战队》中的大白(一至两年内会出现媲美专业医生的模型)、流量地球中的 MOSS. (qxp 老师被 cue 到)…… 总之,是交互式的个人智能信息助手。

当年的计划是各个击破问题,现在使用大模型解决了所有的问题。

我们现在所处的时代是魔幻的时代,是人类历史上罕见的高歌猛进的时代。

# 一点思考

  • 可以对人类语言建模吗?
  • 语言模型是否是世界知识模型?
  • 语言模型是否具有人类认知能力?

今年 Agent 会有爆发式增长。

RAG 还不是太完美。

将所有知识都存储到大模型中是昂贵的,而且可能出现安全风险,将来有没有不通过总结的方式进行大模型检索?

# DeepSeek

为什么 DeepSeek 能做成?大厂为什么做不成?

  1. DeepSeek 是中国最像 OpenAI 的实验室:钱多、算力多(微软的卡基本上都是 OpenAI 在用)、有金主、都是年轻人为主、都有灵活的管理架构。
  2. DeepSeek 手里的卡远超 2000 张,大约 5w 张左右。所以前期可以做许多探索性实验。DeepSeek 的卡来自幻方。
  3. 大厂有 KPI, 短时间要出成果;六小虎要不断接受融资出成果,所以不敢失败。
  4. DeepSeek 这次可能会对国内科研体制产生一些触动。

中国最好的博士生是不比美国差的。当年你们的师兄师姐也有好多拒绝了 ds 的 offer.

整体来说 ds 的创新没有那么大,整体上是对 GPT 4 的追赶 (V3) 和对 o1 的复现 (R1). ds 本质上是在复现和跟随,但是没有做到真正的引领性的创新。这种短时间内也不会有。希望 ds 不要被捧杀。

什么是创新?需要什么?

  1. 钱。进入无人区失败的概率太高了。