核心思想(直飞机票推荐):

一、在某条航线上

(1)本文认为不同的用户对不同的特征在意程度不一样,如有些人更在意机票的价格,有些则更在意航空公司。

(2)基于对第一条的假设,本文提出了利用信息熵的概念计算用户对于每一个特征选择时的在意程度。(如:用户对于该维的信息熵越小,该维取值的离散度越小,用户越在意于某几类的取值,因此在做出选择时用户更在意该维度的取值)

(3)在做机票推荐时,利用候选机票的各个维度上的取值同用户历史机票的距离(相关性)的计算,再结合(2)中由信息熵确定的各维度的权重(例如,加权求和),最终确定候选机票的推荐得分。

(4)值得注意的是,本文将机票的每个显性特征离散化(构造one-hot向量),这样就可以利用不同的集合条件(将机票根据某种条件划分成不同的集合/domain,如:用户在所有航线上的历史机票;用户在某个特定航线上的历史机票;某个航线上所有用户的历史机票)将不同的集合内所有机票的各特征取值向量按照不同的特征分别相加(在该domain上的偏好向量p),就可以表现出不同的意义。如,将用户在某个航线上所有的历史机票可以表达用户在该航线上的偏好。

(5)至于为什么是特征取值向量求和相加: 是由(3)中推导得出的。

二、航线之间的迁移

(1)在某条单航线上求某个候选机票的推荐得分时,是需要将候选机票的各特征值向量同该domain上的用户偏好向量p(是通过用户在该条特定航线上历史机票求和得出)相乘的。所以如果,用户在该航线上的历史数据非常稀少,那么加没办法得出有效的p,这是就可以借鉴其他航线上的数据。(迁移)

(2)具体做法: 同样的计算方法作用在某个航线上所有用户的历史机票,从而计算出能够表现该航线的p,(依旧是特征值向量求和);在利用各个航线上的p,(可求出航线之间的相关性),以及目标用户在各个航线上的p,可以计算出对于该用户而言,融合了其他航线信息的迁移p向量,此p同目标航线上用户p(有可能是0向量),共同构成了最终的p。 再利用最终的p,求目标航线上各候选机票的推荐得分。

三、将KNN方法变成L2R方法(离散选择模型?)

(1)假设:用户对于选择了机票的偏好程度,要比同一批搜索结果中,未选择的机票高。(偏序关系的存在)

(2)V(xui)=paTvi+puTvi+pu,aT*viV(x_{ui}) = p_a^Tv_i + p_u^Tv_i+p_{u,a}^T*v_i , viv_i为机票显性特征值one-hot向量拼接而成的特征向量,而式子中的三个p分别代表了上述三种不同的domain下的模型参数。

(3)基于(2),利用SGD等方法可以求解。求解过程中还会涉及一些平滑(先验),也可以把显性回归通过一定的向量变换,改为回归隐语义模型(RLFM)。

(4)这里的离散模型其实就是对于L2R中pairwsie方法的数学推导解释?



留言

登录 请先登陆, 再留言!