本文是基于微软Xbox应用,推荐领域的一篇文献. 套用机器学习的思路,它其实是要解决两个分类问题: 1) item 二分类, 2) item list 二分类. item 二分类问题就是典型的隐式反馈推荐系统所要解决的问题; 而item list 二分类则是本文的核心,它关注的是用户会不会点击该list中的任何一个物品. 而本文直接将其作为优化目标,旨在提高系统的CTR(Click Through Rate).

我会从以下几个角度阐述本文的主要思路和工作:

  1. 隐式推荐系统
  2. 决策树分类器
  3. 整体解决思路和实验设置
  4. 收获和启发



隐式推荐系统

  1. 隐式推荐和显式推荐 (区别,挑战)
    本文属于隐式推荐
  2. 隐式推荐常用的解决方法(分类,L2R)
    PMF(本文first layer 基于的方法; 输入输出) (WMF:频数置信度; 正负样本存在某种先验概率)
    注意: 这里并不局限于PMF,也可以是其他方法得到的类似概率, 这也是文章所宣称的亮点之一: 不影响原有的推荐算法前提下,拓展第二层算法
    OCCF负样本策略
    CF, DT, SVM, 贝叶斯分类器, 逻辑回归
    本文采用分类算法(GBT)
    本文认为传统CF存在的问题(没有考虑到列表的关系,只逐个考虑item)
    本文认为L2R存在的问题(最优位置;没有融入inter-item interactions, 没能融入其他信息)
    click predicition一般用在其他领域(search, advertisement)本文是用在推荐系统当中的
  3. list problems for implicit feedback
    复杂度
    基于的假设(偏序关系, 每一位置之间的区别度(NDCG))
    最优位置


决策树分类器

  1. 基本DT的做法和原理(信息论,熵减)
    监督学习, 特征向量
  2. Gradient Boosted Trees (GBT) 本文采用的基础算法 (Gradient Boosted Trees介绍)
    => Second layer: list 分类
    boosting DT(更加关注那些被分错的examples)
    GBT更关心残差的减少; Eq (1) 简介 (抽象函数,数值分析而非理论证实)
  3. 特征向量提取 (本文融入了更多新奇但合理的特征)
    the ratng of First Layer (K个itemK个r)
    Inter-item Similarity Interaction (邻近相似度)
    Item Fatigue (前一周显示的次数; 上一次显示到当前时间的间隔)
    时间(item 上线天数,is_weekend, is_best_timeslot)
    用户特征(新item上线到用户点击的平均天数;item相对于平均价格的偏差)
    item流行度(月平均CTR,购买次数)
  4. 通过GBT产生y(其实并不是简单的1或-1)可以认为是该list成为正样本的比例 (叶子中的比例), 当然也可以通过threshold归为1或-1
  5. 本文为什么选择GBT进行list recommendation 而不是其他分类算法(如线性回归, SVM等)?
    The result in Section7.1 implies the existence of non-linear complex interactions between features in the input space.


整体解决思路和实验设置

  1. 实验数据(两类数据:购买;点击)
    拥有对推荐结果的反馈数据
  2. 两层是怎么融合到一个模型当中的(技术路线) (第一层解决第一个分类问题; 第二层解决第二个分类问题)
    利用PMF模型和purchase数据,求得每一个物品被购买的概率(作为list的一个属性,那么K个物品就有了K个属性了)
    对于一个已知的item list, 它的特征向量是已知的,并且是可以通过特征选择技术等筛选特征的. 然后就可以基于此向量进行分类了
  3.  如何最大化CTR?
    如何构建recommendation list?
    如何选择最优list(抽样)
  4. 实验
    AUC
    IPS(推导建立新策略和原策略直接CTR关系)(无法进行A/B测试)


 收获和启发

  1. 文中提到的几个特征值得借鉴(尤其是关于排序位置效用结果列表中不同位置的两个物品之间存在影响的结论),如:
    第一个物品更受偏好评分对有影响,而并不太受第二个物品相似度的影响;
    第二个物品对评分偏好的影响并不大,反而更受更第一个物品的形似程度的影响.
  2. 如何从推荐列表反馈提升模型效果?


留言

登录 请先登陆, 再留言!