花开堪折直须折,莫待无花空折枝。
# IRGAN 总结
IRGAN 对应的文献全名为 IRGAN: A Minimax Game for Unifying Generative and Discriminative Information Retrieval Models。其中,IRGAN 即 information retrieval GAN,指的是信息检索中的 GAN。此外,在文献中,还提到了博弈论中 Minimax 博弈模型的运用。这实际上是 GAN 模型应用中进行参数估计的必然。本文的创新点在于将 GAN 运用在 IR 领域。同时,本文提出了关于 Minimax 模型和 GAN 的展望,也同样值得学习。
# 文献检索简述
文献检索与推荐系统本质相同,都是根据已有的评分结果 (显式反馈) 或点击、点赞等动作数据 (隐式反馈),将项目推荐于用户。其中,文献检索的文献特征常常根据词嵌入技术 (word embedding) 确定。而推荐系统中的项目特征分析多由数据集异同给出。
我们约定查询请求 (query) 记作,文档 (document) 记作。
于是,一个经典的文献检索模型给出的是一个 的映射。此外,在 NLP 中,统计语言模型 (statistical language model) 可以通过对上下文的推测提取文档特征,进而给出 的反向生成。
和推荐系统一样,我们在提取 和 的特征之后,将对应转化成,其中 是一个表示相关性的评分 (rank)。然后在依据评分自高到低进行选取。
# 排序学习
关于排序的方法,属于机器学习中排序学习 (Learning to Rank, LTR or L2R) 的范畴。
# 数据集类型
数据一般包括三大类:
- 单点标注 (pointwise): 对每个文档 及查询 打绝对标签。这样的优点在于数据量比较小,但缺点在于数据可能因缺乏对比而不够客观可信。
- 成对标注 (pairwise): 对一个文档对 及一个查询,标注一个偏序关系,表示对于查询, 的匹配程度高于。这样的数据可信程度一般超过单点标注,但需要的标注量一般达到了 级。
- 列表标注 (listwise): 对全部文档 及一个查询,标注出全序关系,表示全序中前者的匹配程度高于后者。这样标注提供了充分的信息,但是标注量极大 (),一般不会采用。
# 基本方法
# 单点标注
对于单点标注的数据集,由于只存在