一、本文目的:
根据临床数据预测21gene复发分数,医学意义:减少某些预测结果具有高置信度的患者进行21gene的检查(模型预测结果模糊的仍然考虑做21gene检查)
二、具体预测方法:常规的线性预测和随机森林算法
三、本文不同点和值得借鉴的地方:
(1)不直接将线性模型和随机森林的预测结果作用于测试用例,而是结合KNN算法和分类比例确定最终的预测方案。(此处的比例可以认为是nominally置信度,如95%的knn认为是A类)
(2)两个模型都预测出21gene分数(回归),利用预测出的21gene分数(或者其他中间结果),搜索出knn,再分析knn的列表情况,如果某类别符合95%的比例,推荐该类别。另外,通过knn的情况,还可以估计该预测值的分布
(3)训练集合和验证集合(测试集合)有关属性分布的一致性检验(验证两个集合中的对于有关属性的分布是一致的)
四、实验结果:
把预测类别分为3类,其中1,3类为模型关心的,2类是预测模糊类(准确度可以不考虑的)(low, intermediate, and high)最终low-risk和high-rish的准确度都在95%以上(coverage probability)(此处可认为是真实的置信度)
文献题目 | 去谷歌学术搜索 | ||||||||||
Optimizing the Use of Gene Expression Profiling in Early-Stage Breast Cancer | |||||||||||
文献作者 | Hyun-seok Kim | ||||||||||
文献发表年限 | 2016 | ||||||||||
文献关键字 | |||||||||||
21gene 预测;预测模型中的假设检验;乳腺癌症;医学机器学习 | |||||||||||
摘要描述 | |||||||||||
Gene expression profiling assays are frequently used to guide adjuvant chemotherapy decisions in hormone receptor–positive, lymph node–negative breast cancer. We hypothesized that the clinical value of these new tools would be more fully realized when appropriately integrated with high-quality clinicopathologic data. Hence, we developed a model that uses routine pathologic parameters to estimate Oncotype DX recurrence score (ODX RS) and independently tested its ability to predict ODX RS in clinical samples. |