花开堪折直须折,莫待无花空折枝。

# IRGAN 总结

IRGAN 对应的文献全名为 IRGAN: A Minimax Game for Unifying Generative and Discriminative Information Retrieval Models。其中,IRGAN 即 information retrieval GAN,指的是信息检索中的 GAN。此外,在文献中,还提到了博弈论中 Minimax 博弈模型的运用。这实际上是 GAN 模型应用中进行参数估计的必然。本文的创新点在于将 GAN 运用在 IR 领域。同时,本文提出了关于 Minimax 模型和 GAN 的展望,也同样值得学习。

# 文献检索简述

文献检索与推荐系统本质相同,都是根据已有的评分结果 (显式反馈) 或点击、点赞等动作数据 (隐式反馈),将项目推荐于用户。其中,文献检索的文献特征常常根据词嵌入技术 (word embedding) 确定。而推荐系统中的项目特征分析多由数据集异同给出。

我们约定查询请求 (query) 记作qq文档 (document) 记作dd

于是,一个经典的文献检索模型给出的是一个qdq \to d 的映射。此外,在 NLP 中,统计语言模型 (statistical language model) 可以通过对上下文的推测提取文档特征,进而给出dqd \to q 的反向生成。

和推荐系统一样,我们在提取qqdd 的特征之后,将对应转化成q+drq+d \to r,其中rr 是一个表示相关性的评分 (rank)。然后在依据评分自高到低进行选取。

# 排序学习

关于排序的方法,属于机器学习中排序学习 (Learning to Rank, LTR or L2R) 的范畴。

# 数据集类型

数据一般包括三大类:

  • 单点标注 (pointwise): 对每个文档dd 及查询qq 打绝对标签。这样的优点在于数据量比较小,但缺点在于数据可能因缺乏对比而不够客观可信。
  • 成对标注 (pairwise): 对一个文档对d1,d2\lang d_1,d_2\rang 及一个查询qq,标注一个偏序关系d1d2d_1 \succ d_2,表示对于查询qqd1d_1 的匹配程度高于d2d_2。这样的数据可信程度一般超过单点标注,但需要的标注量一般达到了n2n^2 级。
  • 列表标注 (listwise): 对全部文档d1,d2,,dnd_1,d_2,\dots,d_n 及一个查询qq,标注出全序关系di1di2dind_{i_1} \succ d_{i_2} \succ \cdots \succ d_{i_n},表示全序中前者的匹配程度高于后者。这样标注提供了充分的信息,但是标注量极大 (n!n!),一般不会采用。

# 基本方法

# 单点标注

对于单点标注的数据集,由于只存在