- 1、本文档共88页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
乳腺癌患者预后型的研究
乳腺癌患者预后模型的研究
摘要
根据世界卫生组织资料统计,乳腺癌的发病率位居女性恶性肿瘤首
位,已经成为严重威胁女性健康的疾病之一。虽然我国乳腺癌的发病率
目前还不及欧美等发达国家,但是死亡率却呈现逐年提高的趋势。因此,
探索影响乳腺癌患者预后的各种因素、对乳腺癌及其治疗方法进行系统
深入的研究也刻不容缓。
2005年,Delen以数据挖掘的方法、在海量数据基础上建立了乳腺癌
生存预测模型,这是在国际上以数据挖掘方法系统建立乳腺癌患者预后
分析模型的首篇论文。但是,Delen的研究过程存在一些明显的缺陷。
在对SEER原始数据进行预处理后,其中5年生存的样本数占总数的46%;
而美国国家癌症研究所于2000年公布的官方数据表明美国乳腺癌病人
预处理的结果也掩盖了原始数据中分布不平衡的问题,从而未能采取相
应的弥补措施。因此,国外已有学者质疑其研究过程的合理性和科学性。
本文分析Delen研究过程中的不足之处,提出针对性的处理方案,使
研究过程更加合理和科学。在以5年生存率为指标,建立基于Logistic
回归、人工神经网络和决策树的数据挖掘方法系统地建立乳腺癌患者的
预后模型,分析影响乳腺癌患者预后的各种因素。
首先,本文对来自于SEER乳腺癌登记资料库中的数据进行预处理,
为模型训练提供了正确的数据基础。数据预处理步骤主要包括数据清理、
数据集成、数据变换和数据归约。预处理后,其中5年生存的样本数占
总数的87%,样本分布和美国癌症协会2006年公布的官方数据(5年生
存率为88%)基本吻合。
其次,经预处理后的数据类别分布呈现明显的不平衡状态,这种不
平衡会严重影响模型的性能。本文采用过抽样、欠抽样、过抽样与欠抽
样相结合的方法来弥补这种数据类别分布不平衡对模型性能的不利影
响,并以实验结果评估了不同抽样技术的效用。lO折分层交叉验证的实
验结果表明:过抽样技术、欠抽样技术、过抽样和欠抽样相结合的方法
都是在样本分布比例大致相同的情况下,模型的性能达到最优。
再次,根据乳腺癌患者数据的特点、并考虑模型本身的性能特点,
癌患者预后及其影响因素的模型,并以实验分别验证模型的性能。三种
模型理论基础完全不同:决策树的分类是基于逻辑的机器学习方法,通
过对训练样本的学习,建立分类规则;Logistic回归是基于非逻辑的坚
实的数学公式的统计学方法;人工神经网络是类似“黑盒’’的非线性模
型。
第四,采用以ROC下的曲线面积AUC为主的一系列评价指标,分别
评估和比较基于Logistic回归、于人工神经网络和决策树的乳腺癌患者
预后及其影响因素的模型。由于三种抽样技术的准确率、特异性、灵敏
度和AUC均无显著性差异,综合考虑抽样成本和模型性能,确定当采用
欠抽样技术(抽样比例为15%)建立乳腺癌患者预后模型。10折分层交
叉验证的实验结果表明:乳腺癌患者预后模型的AUC分别为0.7625
计学分析,上述三种模型的性能并无显著差异。
算法能否提高模型预测性能的关键因素。采用Bagging算法前后,模型
的性能并无统计学意义上的显著差异。Bagging算法对稳定的学习算法
效果不明显,这也间接证明了本文建立的基于Logistic回归、人工神
经网络和决策树的乳腺癌预后模型是稳定可靠的。
最后,在模型是稳定可靠的基础上解释模型,分析影响乳腺癌患者
预后的各种因素。通过Logistic回归的回归系数和一元优势比的估计
值;人工神经网络的灵敏度分析;决策树的产生式规则来解释模型。
结论:本文在正确进行数据预处理及有效补偿原始数据分布不平衡
的基础上,建立的三种乳腺癌患者预后分析模型是稳定可靠的;这三种
模型的预测性能无显著差异,但在可解释性方面各有特点。因此,这些
模型可适应不同的应用要求,用于分析各种因素对乳腺癌患者预后的影
响。本文建立的数据挖掘方法也能推广适用于其他疾病的致病因素分析、
预后分析和疗效分析等相关医学研究。
关键词: 数据挖掘,乳腺癌患者预后,Logistic回归,神经网络,决策树,抽样技
术,不平衡数据,SEER,灵敏度分析
THEPROGNOSISMODEL
STUDYoN
CANCER
FORBREAST
您可能关注的文档
- 三羟基异黄酮保解毒的作用及其对ugts活性调控的研究.pdf
- 三羟基异黄酮壳糖纳米体的制备及其体内吸收、抗氧化研究.pdf
- 三维静态调强放治疗技术的研究.pdf
- 三羟基异黄酮对精性肝损伤预防及保护作用的研究.pdf
- 三维铋系光催化纳米结构的合成及其光催化性能的调控.pdf
- 三都湾海水网箱殖调查及养殖容量研究.pdf
- 三阶段真空减压鲜绿芦笋工艺与机理研究.pdf
- 乳中抗生素残留生物抑制法检测试剂的研究.pdf
- 乳品卫生指标大杆菌及检测技术的研究.pdf
- 乳及乳制品中残青霉素钾酶解产物检测方法的研究.pdf
- 小学科学:ESP8266智能插座电路原理与动手实践研究教学研究课题报告.docx
- 《金融开放浪潮下我国多层次监管体系构建与创新研究》教学研究课题报告.docx
- 区域教育质量监测中人工智能应用的数据质量分析与优化策略教学研究课题报告.docx
- 《金融科技监管中的数据治理与合规性要求》教学研究课题报告.docx
- 《3D打印技术在航空航天领域中的多材料制造与复合材料应用》教学研究课题报告.docx
- 《绿色金融发展中的政府职能与市场机制研究》教学研究课题报告.docx
- 《植物工厂多层立体栽培光环境调控技术对植物生长发育节律的调控机制探讨》教学研究课题报告.docx
- 销售团队年度业绩总结.docx
- 银行风险管理与金融危机防范.docx
- 银行网络攻击预警与快速响应机制.docx
文档评论(0)