从概率模型的参数估计说起

假设随机变量服从某种概率分布(即,各种概率模型是我们假设的,如Binomial分布,Multinomial分布,高斯分布), 假设完了以后, 模型中会涉及一些模型参数θ\theta, 参数估计的目的就是求出这些参数.

 那么,如何求?

此时就引入似然函数的概念:

似然函数是一种关于模型参数θ\theta的函数:Lx(θ)L_x(\theta)p(X;θ)p(X;\theta), 它在数值上等于p(X|θ)p(X\vert\theta), 即给定一个θ\theta, 观测到X的概率. 所以Lx(θ)L_x(\theta)刻画的当前观测值X(唯一观测值)相对不同模型参数取值θ\theta的概率分布. 那么,我们有理由相信, 至少存在一个θ\theta使得L(θ)L(\theta)取得极值. (该极值点 + 该假设的模型能很好的反应这组观测值)

这种利用似然函数求极值点的方法,就是极大似然思想. 具体求解方法很多,比如梯度法, 有些甚至可直接求解析解(例如求导令其等于0).

 

但是,极大似然方法有时候显得特别局限, 例如当观测sample很少又很极端的时候,极大似然方法得到的结论也会过于极端. 这时候就应该加入先验知识去平滑这种极端情况.于是就自然引入了极大后验方法.

极大后验的思想:假设在极大似然中要求的模型参数θ\theta也服从某种分布(这代表了某种先验知识, 或者假设在我们得到观测值X之前已经得到了一些额外的观测数据X' ). 另外,我们将似然函数看做条件概率的话(似然函数在数值上等于这个条件概率), 我们很容易就得到了关于模型参数的后验表达 p(θ|X)=p(X|θ)p(θ)p(X)p(\theta | X) = \frac{p(X | \theta)p(\theta)}{p(X)},其中p(X)p(X)可以理解为normalization term. 所以, p(θ|X)p( \theta | X ) 正比于  p(X|θ)p(θ). 其中p(θ)p(\theta)为已知。

因此, 极大后验的方法求得的是关于模型参数θ\theta的一个分布, 而极大似然方法是点估计,是关于模型参数θ\theta的的一个似然函数,主要求一个极值点. 当然,极大后验最终也只要求一个最优的θ\theta而已, 因为我们的最终目的是要确认关于随机变量的模型. 不过θ\theta的概率分布都有了,那么最优的θ\theta自然就可以得到(梯度方法,解析方法:有些概率模型极值点直接有现成的公式导出)

 以上两个方法,都有一个共同的思想: 既然观测值X作为随机变量的sample被观测到了,那么,我们假设的关于随机变量的模型应该要保证在模型参数所有可能取值的情况下,我们找到那个让观测值X发生概率最大的模型参数.毕竟是用观测值去预测总体情况,也就是学习样本.只不过极大后验方法掺入了一些'先验样本'.这些样本在观测样本非常少时,影响很大.(关于随机变量的模型是认为假设的,模型参数是学习的,所以这一整套,都是在教我们如何学习θ\theta: 先假设θ\theta已知,然后再给出关于θ\theta和观测值的概率表达形式,似然也好,后验也好,联合密度也好,最后再基于在现有的模型的前提下,让观测值发生的概率最大,从而反过来求得模型参数θ\theta.

 需要注意的是,在实际运用这两种方法中,有许多技巧需要考虑.比如,如何让先验和后验共轭(方便计算,便于解释和理解, 例如Beta*Binomial=>Beta;Dir*Multinomial=>Dir Beta * Binomial => Beta; Dir * Multinomial => Dir

=> 接下来就是讲上述思想在一般生成模型中的运用. (生成模型核心思想: 根据概率密度函数,进行抽样!核心是抽取因变量,如 y~ p(y), 抽的是y, 本质上趋向于抽取使得p(y)尽可能大的y )

(在处理多项式的时候, 观测到的数据形式是one-hot 向量, 如只观测到该单词,而其他所有单词都没有观测到)

注意区别LMS(最小平方差)及其概率表达形式之间的联系和MAP与MLE之间的联系: 前者是从非概率形式到概率形式的转变, 后者是两种概率模型之间的区别.

(非概率模型->概率模型(极大似然-> 极大后验)) : 前面一个变化,可以利用生成模型的角度进行考虑; 后一个转变,从先验的表达进行考虑.

重点,重点,重点: 观测值是来自于由模型参数(先验因变量)构成的概率模型;即观测值对应的随机变量服从我们假设的概率分布; 也就是通过我们假设的概率模型,我们可以算出该观测值的概率, 并且我们希望, 该概率是最优的.

所以,这类模型的首要任务是,确定似然函数的形式(人为假设);然后使得所有观测值的概率之积最大,求出参数.(所以相对其他机器学习而言,再假设模型的时候,这里多了一个概率形式的要求)

(从非概率模型到概率模型)核心技巧: 假设模型当中要出现观测值,也就是假设的模型是关于观测值(变量)和模型参数的函数:f(y;θ)f(y;\theta).如: 线性模型中的y,PMF中的评分R



留言

登录 请先登陆, 再留言!