首先是随便说说：

目前的 o1 或者 R1 已经可以在文字方面（文科）做一些比较深入的研究了，比如 OpenAI 的 Deep Research.
这门课还是要好好听，拓展视野范围。
AI 是 “显学”，现在街边的卖菜老大爷都在聊 deepseek. 因此要有使命感。AI 在后两年会有阶段性的迈进。
要形成自己的思考方式，要有自己的判断。
AGI 还有一到两年。

# 历史

信息检索需求最早出现于图书馆。

1982 Belkin 基于信息供给与需求匹配的检索：

信息需求的产生来源于人的认知。
需求与供给的匹配由计算机实现。
在认知上解决信息需求。

信息检索的根本困难是：

信息表示：
1. 信息表示的困难。最早的表示方式是词袋模型 (bag of words).
2. 世界知识的缺失。人可以读懂知识是因为大脑中有一个基本的世界知识模型。但是大模型出现之前，该问题一直无法解决。
信息需求表示：
1. 需求表达和理解的困难
2. 用户、场景知识缺失
需求 - 供给匹配：
1. 供需两端有语义鸿沟 (semantic gap)

上述三个问题整合起来，就是需要一个统一的、全局的知识表示和推理，也就是大模型。

因此，大模型时代之前的信息检索是困难的，很多根本问题在方法论上没有得到突破。

# 预训练模型与信息检索

出现预训练模型后，信息检索发生了范式变革：

用于显著改进和增强传统信息检索的各个环节
构建面向信息检索的预训练模型
探索预训练模型的

# 预训练在文档表示中的应用

# 长文档建模

最早的信息检索都是基于词的，只能处理简单问题。

核心难点：文本建模的一个大问题就是长文档建模。BERT 是全连接图，因此只能处理 512 tokens.
解决方案：
- 稀疏注意力：Longformer, Bigbird
- Passage 建模：BERT-FirstP, PARADE, IDCM
问题：
- 稀疏注意力：注意力选择缺乏理论支撑。

# Socialformer

使用社会网络理论对稀疏注意力建模。

pipeline: 生成概率图 -> 采样

# MIR

现有模型忽视了 Passage 之间的关系。Passage 之间的关系包括三类：

实体级别的关联
句子级别的关联
段落级别的关联

# 预训练在用户需求中的应用

# 用户表达信息需求的方式

关键词查询
多轮关键词查询
问答
多轮问题
长期多轮

需求可以近似看作带噪声的多层次序列。

# 对话式搜索

从多轮的自然语言中理解用户的真实信息需求并进行检索
对话上下文中存在复杂的

# 面向信息检索的 WEB 预训练

最早的预训练模型是面向自然语言理解的，在文本数据上训练。那么能不能面向 WEB 信息检索做预训练呢？

面向 NLP 的预训练模型在信息检索上有许多缺陷：

模型的训练目标与检索任务不匹配
忽略了海量互联网数据上的结构信息
忽略了多模态信息
忽略了用户搜索行为的深入理解

此外，互联网上有海量数据可供使用。

# 互联网的结构

即希望让预训练模型理解互联网上的结构化信息：

理解 Web 上的链接和锚文本 (HARP): 链接是很强的监督信号。
理解页面的内容、结构和视觉 (Webformer): 页面结构中蕴含弱监督信息。于是使用层次化 Transformer 分析 HTML 中的 DOM 树。训练该模型很有趣，可以直接 mask 树中的一个节点，而是 mask 一个词。

现在有很多模型都试图超越 Transformer 架构和 next token pred 范式。那么 next token pred 范式为什么目前有如此好的效果？

大模型中所有的复杂性都是在训练中自动浮现出来的。正因为 GPT 的 next token pred 范式比 BERT 的完形填空任务更困难，所以都训练出来之后 GPT 的效果更好。——ilya

# 面向多模态检索的预训练

2020 年，雁栖湖开会，投票最困难的方向是多模态大模型。最难解决的问题是模态之间的语义鸿沟。当时 cjn 市长特批买了 2000 张 A-100.

五道口大模型简史 - StormBlafe 的文章 - 知乎

为什么 OpenAI 能坚持下去但是 BAAI 坚持不下去？

OpenAI 有信念。
BAAI 卡是政府给的。

# 预训练模型为核心的新检索

# Model-based IR

后续工作包括：

Dynamic Retriever
WebBrain

# 结语

大模型彻底解决了统一、全局的知识表示和推理问题。最开始的研究是将大模型用到传统的检索 pipeline 中，后面就出现了专用于检索的方法。现在的大模型即通用大模型是对人脑的复现。通用大模型首先是做了文档排序，后面改进为直接生成检索结果（基于检索的结果生成）而非 top-k 排序。这就是大模型发展的进程。

因此，我们真正想要的是《钢铁侠》中的贾维斯、《超能陆战队》中的大白（一至两年内会出现媲美专业医生的模型）、流量地球中的 MOSS. (qxp 老师被 cue 到)…… 总之，是交互式的个人智能信息助手。

当年的计划是各个击破问题，现在使用大模型解决了所有的问题。

我们现在所处的时代是魔幻的时代，是人类历史上罕见的高歌猛进的时代。

# 一点思考

可以对人类语言建模吗？
语言模型是否是世界知识模型？
语言模型是否具有人类认知能力？

今年 Agent 会有爆发式增长。

RAG 还不是太完美。

将所有知识都存储到大模型中是昂贵的，而且可能出现安全风险，将来有没有不通过总结的方式进行大模型检索？

# DeepSeek

为什么 DeepSeek 能做成？大厂为什么做不成？

DeepSeek 是中国最像 OpenAI 的实验室：钱多、算力多（微软的卡基本上都是 OpenAI 在用）、有金主、都是年轻人为主、都有灵活的管理架构。
DeepSeek 手里的卡远超 2000 张，大约 5w 张左右。所以前期可以做许多探索性实验。DeepSeek 的卡来自幻方。
大厂有 KPI, 短时间要出成果；六小虎要不断接受融资出成果，所以不敢失败。
DeepSeek 这次可能会对国内科研体制产生一些触动。

中国最好的博士生是不比美国差的。当年你们的师兄师姐也有好多拒绝了 ds 的 offer.

整体来说 ds 的创新没有那么大，整体上是对 GPT 4 的追赶 (V3) 和对 o1 的复现 (R1). ds 本质上是在复现和跟随，但是没有做到真正的引领性的创新。这种短时间内也不会有。希望 ds 不要被捧杀。

什么是创新？需要什么？

钱。进入无人区失败的概率太高了。
？