花开堪折直须折，莫待无花空折枝。

# IRGAN 总结

IRGAN 对应的文献全名为 IRGAN: A Minimax Game for Unifying Generative and Discriminative Information Retrieval Models。其中，IRGAN 即 information retrieval GAN，指的是信息检索中的 GAN。此外，在文献中，还提到了博弈论中 Minimax 博弈模型的运用。这实际上是 GAN 模型应用中进行参数估计的必然。本文的创新点在于将 GAN 运用在 IR 领域。同时，本文提出了关于 Minimax 模型和 GAN 的展望，也同样值得学习。

# 文献检索简述

文献检索与推荐系统本质相同，都是根据已有的评分结果 (显式反馈) 或点击、点赞等动作数据 (隐式反馈)，将项目推荐于用户。其中，文献检索的文献特征常常根据词嵌入技术 (word embedding) 确定。而推荐系统中的项目特征分析多由数据集异同给出。

我们约定查询请求 (query) 记作 $q$ ，文档 (document) 记作 $d$ 。

于是，一个经典的文献检索模型给出的是一个 $q \to d$ 的映射。此外，在 NLP 中，统计语言模型 (statistical language model) 可以通过对上下文的推测提取文档特征，进而给出 $d \to q$ 的反向生成。

和推荐系统一样，我们在提取 $q$ 和 $d$ 的特征之后，将对应转化成 $q+d \to r$ ，其中 $r$ 是一个表示相关性的评分 (rank)。然后在依据评分自高到低进行选取。

# 排序学习

关于排序的方法，属于机器学习中排序学习 (Learning to Rank, LTR or L2R) 的范畴。

# 数据集类型

数据一般包括三大类：

单点标注 (pointwise): 对每个文档 $d$ 及查询 $q$ 打绝对标签。这样的优点在于数据量比较小，但缺点在于数据可能因缺乏对比而不够客观可信。
成对标注 (pairwise): 对一个文档对 $\lang d_1,d_2\rang$ 及一个查询 $q$ ，标注一个偏序关系 $d_1 \succ d_2$ ，表示对于查询 $q$ ， $d_1$ 的匹配程度高于 $d_2$ 。这样的数据可信程度一般超过单点标注，但需要的标注量一般达到了 $n^2$ 级。
列表标注 (listwise): 对全部文档 $d_1,d_2,\dots,d_n$ 及一个查询 $q$ ，标注出全序关系 $d_{i_1} \succ d_{i_2} \succ \cdots \succ d_{i_n}$ ，表示全序中前者的匹配程度高于后者。这样标注提供了充分的信息，但是标注量极大 ( $n!$ )，一般不会采用。

# 基本方法

# 单点标注

对于单点标注的数据集，由于只存在