和院长标题完全一样,难绷。

# 背景

大模型的幻觉问题一定存在。而且,大模型幻觉产生的概率和训练数据中只出现一次的事实的比例近似。也就是说,训练数据的频率会影响幻觉出现的概率。

然而,信息检索是不会出现幻觉的,因此可以考虑生成式信息检索 (GenIR) 的方法。

# 大模型赋能的信息检索

可以综述:Large Language Models for Information Retrievial: A Survey.

主要组成:

  1. 查询改写 (rewriter)
  2. 检索器 (retriever)
  3. 重排序器 (reranker)
  4. 读出器 (reader)

其各个环节都由大语言模型支持,因此称为生成式检索 (GenIR).

# 查询改写

为了应对原有查询过短或者模糊,需要使用大模型进行查询改写,以匹配传统的搜索引擎。

查询改写通常包括两种方法:

  1. 直接改写:改写成和语义接近的新查询。例如:“中国人民大学的校长是谁?” -> “中国人民大学 校长”
  2. 答案预测:直接使用大模型生成查询的答案。例如:“中国人民大学的校长是谁?” -> “林尚立”

与现有搜索引擎结合的三种路径:

  1. 混合 LLM 重写结果与传统伪相关反馈结果
  2. 在 LLM 的输出中引入检索文档
  3. 利用伪相关反馈增强生成式相关反馈

在对话式搜索中,包括如下常见方式:

  • LLM4CS
  • 聚合多组改写
  • 引入思维链

# 基于大模型生成检索器的训练数据

如何用大语言模型增强检索?最直接和常见的方式是使用大语言模型生成检索器的训练数据。生成的数据包括:

  1. 查询改写
  2. 生成查询
  3. 生成标签

这些研究产生了一个新的方向:通用表征模型 (General Text Model).

# 生成式检索

现在成为生成式文档检索。

# 检索增强的大模型