- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
乳腺癌患者预后模型的研究
摘要
根据世界卫生组织资料统计,乳腺癌的发病率位居女性恶性肿瘤首
位,已经成为严重威胁女性健康的疾病之一。虽然我国乳腺癌的发病率
目前还不及欧美等发达国家,但是死亡率却呈现逐年提高的趋势。因此,
探索影响乳腺癌患者预后的各种因素、对乳腺癌及其治疗方法进行系统
深入的研究也刻不容缓。
2005年,Delen以数据挖掘的方法、在海量数据基础上建立了乳腺癌
生存预测模型,这是在国际上以数据挖掘方法系统建立乳腺癌患者预后
分析模型的首篇论文。但是,Delen的研究过程存在一些明显的缺陷。
在对SEER原始数据进行预处理后,其中5年生存的样本数占总数的46%;
而美国国家癌症研究所于2000年公布的官方数据表明美国乳腺癌病人
预处理的结果也掩盖了原始数据中分布不平衡的问题,从而未能采取相
应的弥补措施。因此,国外已有学者质疑其研究过程的合理性和科学性。
本文分析Delen研究过程中的不足之处,提出针对性的处理方案,使
研究过程更加合理和科学。在以5年生存率为指标,建立基于Logistic
回归、人工神经网络和决策树的数据挖掘方法系统地建立乳腺癌患者的
预后模型,分析影响乳腺癌患者预后的各种因素。
首先,本文对来自于SEER乳腺癌登记资料库中的数据进行预处理,
为模型训练提供了正确的数据基础。数据预处理步骤主要包括数据清理、
数据集成、数据变换和数据归约。预处理后,其中5年生存的样本数占
总数的87%,样本分布和美国癌症协会2006年公布的官方数据(5年生
存率为88%)基本吻合。
其次,经预处理后的数据类别分布呈现明显的不平衡状态,这种不
平衡会严重影响模型的性能。本文采用过抽样、欠抽样、过抽样与欠抽
样相结合的方法来弥补这种数据类别分布不平衡对模型性能的不利影
响,并以实验结果评估了不同抽样技术的效用。lO折分层交叉验证的实
验结果表明:过抽样技术、欠抽样技术、过抽样和欠抽样相结合的方法
都是在样本分布比例大致相同的情况下,模型的性能达到最优。
再次,根据乳腺癌患者数据的特点、并考虑模型本身的性能特点,
癌患者预后及其影响因素的模型,并以实验分别验证模型的性能。三种
模型理论基础完全不同:决策树的分类是基于逻辑的机器学习方法,通
过对训练样本的学习,建立分类规则;Logistic回归是基于非逻辑的坚
实的数学公式的统计学方法;人工神经网络是类似“黑盒’’的非线性模
型。
第四,采用以ROC下的曲线面积AUC为主的一系列评价指标,分别
评估和比较基于Logistic回归、于人工神经网络和决策树的乳腺癌患者
预后及其影响因素的模型。由于三种抽样技术的准确率、特异性、灵敏
度和AUC均无显著性差异,综合考虑抽样成本和模型性能,确定当采用
欠抽样技术(抽样比例为15%)建立乳腺癌患者预后模型。10折分层交
叉验证的实验结果表明:乳腺癌患者预后模型的AUC分别为0.7625
计学分析,上述三种模型的性能并无显著差异。
算法能否提高模型预测性能的关键因素。采用Bagging算法前后,模型
的性能并无统计学意义上的显著差异。Bagging算法对稳定的学习算法
效果不明显,这也间接证明了本文建立的基于Logistic回归、人工神
经网络和决策树的乳腺癌预后模型是稳定可靠的。
最后,在模型是稳定可靠的基础上解释模型,分析影响乳腺癌患者
预后的各种因素。通过Logistic回归的回归系数和一元优势比的估计
值;人工神经网络的灵敏度分析;决策树的产生式规则来解释模型。
结论:本文在正确进行数据预处理及有效补偿原始数据分布不平衡
的基础上,建立的三种乳腺癌患者预后分析模型是稳定可靠的;这三种
模型的预测性能无显著差异,但在可解释性方面各有特点。因此,这些
模型可适应不同的应用要求,用于分析各种因素对乳腺癌患者预后的影
响。本文建立的数据挖掘方法也能推广适用于其他疾病的致病因素分析、
预后分析和疗效分析等相关医学研究。
关键词: 数据挖掘,乳腺癌患者预后,Logistic回归,神经网络,决策树,抽样技
术,不平衡数据,SEER,灵敏度分析
THEPROGNOSISMODEL
STUDYoN
CANCER
FORBREAST
原创力文档


文档评论(0)