一、本文目的:

根据临床数据预测21gene复发分数,医学意义:减少某些预测结果具有高置信度的患者进行21gene的检查(模型预测结果模糊的仍然考虑做21gene检查)

二、具体预测方法:常规的线性预测和随机森林算法

三、本文不同点和值得借鉴的地方:

(1)不直接将线性模型和随机森林的预测结果作用于测试用例,而是结合KNN算法和分类比例确定最终的预测方案。(此处的比例可以认为是nominally置信度,如95%的knn认为是A类)

(2)两个模型都预测出21gene分数(回归),利用预测出的21gene分数(或者其他中间结果),搜索出knn,再分析knn的列表情况,如果某类别符合95%的比例,推荐该类别。另外,通过knn的情况,还可以估计该预测值的分布

(3)训练集合和验证集合(测试集合)有关属性分布的一致性检验(验证两个集合中的对于有关属性的分布是一致的)

四、实验结果:

把预测类别分为3类,其中1,3类为模型关心的,2类是预测模糊类(准确度可以不考虑的)(low, intermediate, and high)最终low-risk和high-rish的准确度都在95%以上(coverage probability)(此处可认为是真实的置信度)



留言

登录 请先登陆, 再留言!