核心思想(直飞机票推荐):
一、在某条航线上
(1)本文认为不同的用户对不同的特征在意程度不一样,如有些人更在意机票的价格,有些则更在意航空公司。
(2)基于对第一条的假设,本文提出了利用信息熵的概念计算用户对于每一个特征选择时的在意程度。(如:用户对于该维的信息熵越小,该维取值的离散度越小,用户越在意于某几类的取值,因此在做出选择时用户更在意该维度的取值)
(3)在做机票推荐时,利用候选机票的各个维度上的取值同用户历史机票的距离(相关性)的计算,再结合(2)中由信息熵确定的各维度的权重(例如,加权求和),最终确定候选机票的推荐得分。
(4)值得注意的是,本文将机票的每个显性特征离散化(构造one-hot向量),这样就可以利用不同的集合条件(将机票根据某种条件划分成不同的集合/domain,如:用户在所有航线上的历史机票;用户在某个特定航线上的历史机票;某个航线上所有用户的历史机票)将不同的集合内所有机票的各特征取值向量按照不同的特征分别相加(在该domain上的偏好向量p),就可以表现出不同的意义。如,将用户在某个航线上所有的历史机票可以表达用户在该航线上的偏好。
(5)至于为什么是特征取值向量求和相加: 是由(3)中推导得出的。
二、航线之间的迁移
(1)在某条单航线上求某个候选机票的推荐得分时,是需要将候选机票的各特征值向量同该domain上的用户偏好向量p(是通过用户在该条特定航线上历史机票求和得出)相乘的。所以如果,用户在该航线上的历史数据非常稀少,那么加没办法得出有效的p,这是就可以借鉴其他航线上的数据。(迁移)
(2)具体做法: 同样的计算方法作用在某个航线上所有用户的历史机票,从而计算出能够表现该航线的p,(依旧是特征值向量求和);在利用各个航线上的p,(可求出航线之间的相关性),以及目标用户在各个航线上的p,可以计算出对于该用户而言,融合了其他航线信息的迁移p向量,此p同目标航线上用户p(有可能是0向量),共同构成了最终的p。 再利用最终的p,求目标航线上各候选机票的推荐得分。
三、将KNN方法变成L2R方法(离散选择模型?)
(1)假设:用户对于选择了机票的偏好程度,要比同一批搜索结果中,未选择的机票高。(偏序关系的存在)
(2), 为机票显性特征值one-hot向量拼接而成的特征向量,而式子中的三个p分别代表了上述三种不同的domain下的模型参数。
(3)基于(2),利用SGD等方法可以求解。求解过程中还会涉及一些平滑(先验),也可以把显性回归通过一定的向量变换,改为回归隐语义模型(RLFM)。
(4)这里的离散模型其实就是对于L2R中pairwsie方法的数学推导解释?
文献题目 | 去谷歌学术搜索 | ||||||||||
机票个性化推荐方法 | |||||||||||
文献作者 | 杨芳洲; 曹健 | ||||||||||
文献发表年限 | 2015 | ||||||||||
文献关键字 | |||||||||||
硕士毕业论文;机票个性化推荐,推荐算法,隐式反馈,协同过滤,选择模型 | |||||||||||
摘要描述 | |||||||||||
随着互联网的发展以及大数据时代的到来,信息爆炸所带来的信息过载的问题 也越发明显。推荐系统作为解决信息过载问题的一个有效解决方案,能够有效地为 用户个性化地推荐其感兴趣的产品与信息,其在过去数十年中也逐渐成为一个重要 的研究热点并被广泛地应用到工业领域。 论文主要研究推荐系统在机票个性化推荐问题中的应用。与传统的推荐系统的 推荐对象,如电影、书籍等具有相对固定属性的静态商品不同,机票是属于易受时 间影响的,且价格敏感的动态商品。同一张机票在距离起飞的不同时间有着较大的 价格波动,而不同的机票价格波动将直接影响用户的购买行为。 文中通过研究和分析用户的历史机票订单数据特征,提出了一种基于用户偏好 模型的机票个性化推荐算法,该方法类似于基于内容推荐的 KNN 的方法,并且引入 了信息熵的概念,用来计算用户在不同航线中各个机票特征上的个性化的偏好权重。 此外,针对用户在非活跃航线上数据稀疏的问题,还提出了基于航线的协同过滤的 算法,用来帮助用户进行跨航线的偏好学习。 此外,文中还提出了一种基于选择模型的机票个性化推荐算法。通过对用户在 机票历史订单的成对选择分析,来建立用户选择机票时的效用目标函数及其优化问 题。同时,还针对机票动态商品属性,提出了一种结合回归隐语义模型的效用函数 模型,其能够很好地结合航班的固定信息和机票本身的动态属性特征,通过隐式空 间特征更精准地刻画用户对机票的偏好。 最后,论文还结合了大数据技术,提出了一个面向大数据的机票个性化推荐系 统设计框架,包含了数据层,应用层,以及包含了一个离线计算单元和一个在线计 算单元的推荐逻辑层。同时,还对文中提出的两种机票个性化推荐算法进行了基于 Spark 并行计算框架的并行化设计与实现。 |