和院长标题完全一样,难绷。
# 背景
大模型的幻觉问题一定存在。而且,大模型幻觉产生的概率和训练数据中只出现一次的事实的比例近似。也就是说,训练数据的频率会影响幻觉出现的概率。
然而,信息检索是不会出现幻觉的,因此可以考虑生成式信息检索 (GenIR) 的方法。
# 大模型赋能的信息检索
可以综述:Large Language Models for Information Retrievial: A Survey.
主要组成:
- 查询改写 (rewriter)
- 检索器 (retriever)
- 重排序器 (reranker)
- 读出器 (reader)
其各个环节都由大语言模型支持,因此称为生成式检索 (GenIR).
# 查询改写
为了应对原有查询过短或者模糊,需要使用大模型进行查询改写,以匹配传统的搜索引擎。
查询改写通常包括两种方法:
- 直接改写:改写成和语义接近的新查询。例如:“中国人民大学的校长是谁?” -> “中国人民大学 校长”
- 答案预测:直接使用大模型生成查询的答案。例如:“中国人民大学的校长是谁?” -> “林尚立”
与现有搜索引擎结合的三种路径:
- 混合 LLM 重写结果与传统伪相关反馈结果
- 在 LLM 的输出中引入检索文档
- 利用伪相关反馈增强生成式相关反馈
在对话式搜索中,包括如下常见方式:
- LLM4CS
- 聚合多组改写
- 引入思维链
# 基于大模型生成检索器的训练数据
如何用大语言模型增强检索?最直接和常见的方式是使用大语言模型生成检索器的训练数据。生成的数据包括:
- 查询改写
- 生成查询
- 生成标签
这些研究产生了一个新的方向:通用表征模型 (General Text Model).
# 生成式检索
现在成为生成式文档检索。