LETOR (LEarning TO Rank)数据集下载地址: https://www.microsoft.com/en-us/research/project/letor-learning-rank-information-retrieval/?from=http%3A%2F%2Fresearch.microsoft.com%2Fen-us%2Fum%2Fbeijing%2Fprojects%2Fletor%2F%2Fletor3download.aspx

L2R 源于IR ( 用户输入query, 返回跟此query最为相关的documents, 并根据相关等进行排序).

本博文从以下几个方面阐述对L2R相关问题的理解:

  1. L2R在IR中一般的framework
  2. L2R在IR与在RecSys中的区别
  3. LETOR数据的简单介绍

L2R在IR中一般的Architecture

    在介绍L2R在IR中的运用之前,先来简单了解下IR领域中一些启发式排序方法: 首先query和document一般都是以text形式存在的, 所以文本匹配是解决IR问题最为根本的技术. 基于文本匹配模式, 我们就能够提出很多用来计算query和document之间相关性的指标, 比如: TF-IDF, BM25, PageRank 等, 通过任意一个指标或这任意指标的加权就可以得到关于一个query的document list. 如果这个指标足够优秀,如PageRank, 我们可以之间根据这个相关性返回最终的推荐列表.

    实际上,单单靠上述方法是存在一定的局限性的,因为单个指标考虑的面是有限的,即是各有侧重的. 那么组合这些指标进行排序就是一个很好的选择了,最直接的方法就是上面说的直接加权,形成更加综合的指标,另一种方法是借用机器学习方法,将这些指标作为特征一并进行学习.

    L2R就是一种机器学习方法, 一般机器学习最基本的三要素: 特征, ground truth和optimization function. 在IR中,

  1. 特征 是通过query-document pair进行构造的, 如Length of body, 以及上面提到的TF-IDF(计算TF-IDF等指标是需要语料库的,所以在进行机器学习建模之前,应该先确定candidate document集合, 确定的方法很多,例如采用BM25先进行排序筛选,从这个角度来看,L2R实际上是二次排序过程). 本文中一个提出了100多个特征的构造方法,可共参考
    notice: 这里的特征是不仅包含了document的基本特征,如文长,更是包含了query-document一起形成的特征,而且是更加core feature。
  2. ground truth 这里的ground truth指的是每个document相对于query的相关性等级(如1 表示相关, 0表示不相关), 这里的ground truth是由人进行标定的. 这里需要区别通过指标如TF-IDF计算得到的相关性, 这里可认为ground truth是一种最为综合的,权威的,隐式的指标计算的到的结果(人脑指标 :))
  3. optimization function 也就是通常说的objective function, 用来指导模型的学习,这里listwise和pairwise都可被考虑

引用wiki图对L2R在IR中的运用架构

L2R_in_IR_arch

以下是对通用机器学习分类

,L2R分类图解,ref http://www.tongji.edu.cn/~qiliu/lor_vs.html

 


 

L2R在IR与在RecSys中的区别

    L2R在IR与RECSYS中的区别实质上是RECSYS中collaboration based 和 content based的区别,如果RecSys中拥有user,item甚至是用户行为(上下文)特征数据的话,就可直接将L2R in IR中的learning model迁移到RECSYS中。如果RECSYS中只有行为数据而没有特征数据,那么只能利用collaboration方法了,实际上L2R也是可以用在collaboration based的RECSYS中的,原因在于RECSYS中的用户id就可以隐含了所有用户特征(隐特征,这个概念就不能用在query中,因为query没有唯一标识,其id没有任何实质用处,因为系统不能利用query id来索引document, the query is like a new user in RecSys),所以collaboration based方法也不能用在IR中。

LETOR数据的简单介绍

 

用户输入query,index 相关documents, 确定语料库,计算相关特征,输入到Ranking model, 进行排序。

近期发现二次排序成为很多文章的选择, 如 http://nuoku.vip/users/2/articles/51



留言

登录 请先登陆, 再留言!