首先是随便说说:
- 目前的 o1 或者 R1 已经可以在文字方面(文科)做一些比较深入的研究了,比如 OpenAI 的 Deep Research.
- 这门课还是要好好听,拓展视野范围。
- AI 是 “显学”,现在街边的卖菜老大爷都在聊 deepseek. 因此要有使命感。AI 在后两年会有阶段性的迈进。
- 要形成自己的思考方式,要有自己的判断。
- AGI 还有一到两年。
# 历史
信息检索需求最早出现于图书馆。
1982 Belkin 基于信息供给与需求匹配的检索:
- 信息需求的产生来源于人的认知。
- 需求与供给的匹配由计算机实现。
- 在认知上解决信息需求。
信息检索的根本困难是:
- 信息表示:
- 信息表示的困难。最早的表示方式是词袋模型 (bag of words).
- 世界知识的缺失。人可以读懂知识是因为大脑中有一个基本的世界知识模型。但是大模型出现之前,该问题一直无法解决。
- 信息需求表示:
- 需求表达和理解的困难
- 用户、场景知识缺失
- 需求 - 供给匹配:
- 供需两端有语义鸿沟 (semantic gap)
上述三个问题整合起来,就是需要一个统一的、全局的知识表示和推理,也就是大模型。
因此,大模型时代之前的信息检索是困难的,很多根本问题在方法论上没有得到突破。
# 预训练模型与信息检索
出现预训练模型后,信息检索发生了范式变革:
- 用于显著改进和增强传统信息检索的各个环节
- 构建面向信息检索的预训练模型
- 探索预训练模型的
# 预训练在文档表示中的应用
# 长文档建模
最早的信息检索都是基于词的,只能处理简单问题。
- 核心难点:文本建模的一个大问题就是长文档建模。BERT 是全连接图,因此只能处理 512 tokens.
- 解决方案:
- 稀疏注意力:Longformer, Bigbird
- Passage 建模:BERT-FirstP, PARADE, IDCM
- 问题:
- 稀疏注意力:注意力选择缺乏理论支撑。
# Socialformer
使用社会网络理论对稀疏注意力建模。
pipeline: 生成概率图 -> 采样
# MIR
现有模型忽视了 Passage 之间的关系。Passage 之间的关系包括三类:
- 实体级别的关联
- 句子级别的关联
- 段落级别的关联
# 预训练在用户需求中的应用
# 用户表达信息需求的方式
- 关键词查询
- 多轮关键词查询
- 问答
- 多轮问题
- 长期多轮
需求可以近似看作带噪声的多层次序列。
# 对话式搜索
- 从多轮的自然语言中理解用户的真实信息需求并进行检索
- 对话上下文中存在复杂的
# 面向信息检索的 WEB 预训练
最早的预训练模型是面向自然语言理解的,在文本数据上训练。那么能不能面向 WEB 信息检索做预训练呢?
面向 NLP 的预训练模型在信息检索上有许多缺陷:
- 模型的训练目标与检索任务不匹配
- 忽略了海量互联网数据上的结构信息
- 忽略了多模态信息
- 忽略了用户搜索行为的深入理解
此外,互联网上有海量数据可供使用。
# 互联网的结构
即希望让预训练模型理解互联网上的结构化信息:
- 理解 Web 上的链接和锚文本 (HARP): 链接是很强的监督信号。
- 理解页面的内容、结构和视觉 (Webformer): 页面结构中蕴含弱监督信息。于是使用层次化 Transformer 分析 HTML 中的 DOM 树。训练该模型很有趣,可以直接 mask 树中的一个节点,而是 mask 一个词。
现在有很多模型都试图超越 Transformer 架构和 next token pred 范式。那么 next token pred 范式为什么目前有如此好的效果?
大模型中所有的复杂性都是在训练中自动浮现出来的。正因为 GPT 的 next token pred 范式比 BERT 的完形填空任务更困难,所以都训练出来之后 GPT 的效果更好。——ilya
# 面向多模态检索的预训练
2020 年,雁栖湖开会,投票最困难的方向是多模态大模型。最难解决的问题是模态之间的语义鸿沟。当时 cjn 市长特批买了 2000 张 A-100.
五道口大模型简史 - StormBlafe 的文章 - 知乎
为什么 OpenAI 能坚持下去但是 BAAI 坚持不下去?
- OpenAI 有信念。
- BAAI 卡是政府给的。
# 预训练模型为核心的新检索
# Model-based IR
后续工作包括:
- Dynamic Retriever
- WebBrain
# 结语
大模型彻底解决了统一、全局的知识表示和推理问题。最开始的研究是将大模型用到传统的检索 pipeline 中,后面就出现了专用于检索的方法。现在的大模型即通用大模型是对人脑的复现。通用大模型首先是做了文档排序,后面改进为直接生成检索结果(基于检索的结果生成)而非 top-k 排序。这就是大模型发展的进程。
因此,我们真正想要的是《钢铁侠》中的贾维斯、《超能陆战队》中的大白(一至两年内会出现媲美专业医生的模型)、流量地球中的 MOSS. (qxp 老师被 cue 到)…… 总之,是交互式的个人智能信息助手。
当年的计划是各个击破问题,现在使用大模型解决了所有的问题。
我们现在所处的时代是魔幻的时代,是人类历史上罕见的高歌猛进的时代。
# 一点思考
- 可以对人类语言建模吗?
- 语言模型是否是世界知识模型?
- 语言模型是否具有人类认知能力?
今年 Agent 会有爆发式增长。
RAG 还不是太完美。
将所有知识都存储到大模型中是昂贵的,而且可能出现安全风险,将来有没有不通过总结的方式进行大模型检索?
# DeepSeek
为什么 DeepSeek 能做成?大厂为什么做不成?
- DeepSeek 是中国最像 OpenAI 的实验室:钱多、算力多(微软的卡基本上都是 OpenAI 在用)、有金主、都是年轻人为主、都有灵活的管理架构。
- DeepSeek 手里的卡远超 2000 张,大约 5w 张左右。所以前期可以做许多探索性实验。DeepSeek 的卡来自幻方。
- 大厂有 KPI, 短时间要出成果;六小虎要不断接受融资出成果,所以不敢失败。
- DeepSeek 这次可能会对国内科研体制产生一些触动。
中国最好的博士生是不比美国差的。当年你们的师兄师姐也有好多拒绝了 ds 的 offer.
整体来说 ds 的创新没有那么大,整体上是对 GPT 4 的追赶 (V3) 和对 o1 的复现 (R1). ds 本质上是在复现和跟随,但是没有做到真正的引领性的创新。这种短时间内也不会有。希望 ds 不要被捧杀。
什么是创新?需要什么?
- 钱。进入无人区失败的概率太高了。
- ?