乳腺癌的诊断模型.docVIP

  1. 1、本文档共23页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
乳腺癌的诊断模型

乳腺癌的诊断模型 摘要 本文解决的是乳腺癌诊断问题,属于模式判别模型。根据已知两总体——乳腺肿瘤良性和恶性的九项指标的数据,来建立乳腺癌诊断的模型,并为20组肿瘤患者进行诊断。我们分别采用了BRF神经网络和线性概率模型来建立诊断方案,并在线性概率模型上采用F检验判断主要影响指标,使模型得到优化。 对于问题一,根据题中良恶性肿瘤各项指标数据,我们提出了两种诊断方案。方案1,通过matlab建立RBF神经网络仿真模拟。利用题中70组检验结果进行学习创建RBF网络(见附表),然后将所有数据代入此网络中进行检验,发现所求结果与题中给出结果完全吻合,得到其模拟准确率为100%。方案2,将78组数据结果0-1作为概率处理,建立线性概率模型,并用6SQ软件求出回归函数并对其进行相关性检验,再利用最终将其转化为logit模型求得。结合确诊结果确定临界值(见附表3),即当,判断结果为1,恶性;时,判断结果为0,良性。在此模型的判断标准下,将78组数据代入检验,发现只有两组数据结果与原结果不同,其判断准确度为97%。 对于问题二,我们分别利用问题一中建立的两种模型,对这20组未知结果的检查数据进行判别。利用模型一判别得出有8组是恶性肿瘤,12组是良性肿瘤;利用模型二判别有9组是恶性,11组良性。具体结果见附录表4。 对于问题三,对问题一所求的回归函数,利用F检验对其进行逐步回归分析,对各项指标进行逐步剔除,得出乳腺肿瘤肿块的厚度、单层上皮细胞的大小、裸核、正常的核仁是主要的影响指标。并将原78组数据带入最终得到的目标函数检验,其准确度同样为97%。 最后我们在模型补充中针对有缺损的两组数据建立模型三,在除去第六项指标的情况下求得新的线性概率模型,并利用matlab将题中80组数据带入检验,发现其准确度为96.3%。 关键词 RBF神经网络 逐步回归分析 logit模型 F检验 一、问题重述 1.1 问题背景 全世界每年约有120万妇女患乳腺癌,50万人死于乳腺癌,乳腺癌已经成为全球女性发病率最高的恶性肿瘤。 下面是某医院乳腺肿瘤患者的一组数据(附录表1),其中前面9个指标分别表示乳腺肿瘤肿块的厚度、细胞大小的均匀性、 细胞形状的均匀性、边缘的粘连、单层上皮细胞的大小、裸核、温和的染色质、正常的核仁、有丝分裂,尾数0表示确诊为“良性”,1表示确诊为“恶性”,数据已经归一化为0到10之间的自然数。 1.2 需要解决的问题 1、根据以上数据,请提出一种或多种判别乳腺肿瘤属于“良性” 还是 “恶性”的方法,并检验你提出的方法的正确性。 2、现有一组乳腺肿瘤患者的九个指标数据如下,请你按照你在问题一中提出的方法分别判别属于“良性”还是“恶性” 3、试确定哪些指标是区分乳腺肿瘤是“良性”还是“恶性”的主要指标,请采用主要指标建立区分“良性”和“恶性” 乳腺肿瘤的模型,以便用于乳腺肿瘤的辅助诊断时可以减少化验的指标。 二、模型假设 2.1 假设题中所给数据都是真实的,并且是相互独立; 2.2 假设题中所给指标数据与其它病例无关; 2.3 假设根据题中九项指标来判别良性或恶性肿瘤的理由是充分的; 2.5 假设不考虑其它疾病对乳腺癌肿瘤的影响; 2.6 假设忽略带有?的两组数据。 符号说明 第 组肿瘤指标的数据() 第 项指标() 第 项指标的数据(肿块的厚度,大小的均匀性……) 第组数据第项指标的数据 观测值与模拟值的误差 线性概率模型第项指标变量的系数 模型三中第项指标变量的系数 第组数据求出的为恶性肿瘤的概率 判别为良形或恶性的临界值 问题分析 乳腺癌已经成为全球女性发病率最高的恶性肿瘤,及时诊断出肿瘤患者是否为恶性变得至关重要。本题就是要求通过对确诊患者进行数据分析,来建立诊断乳腺癌肿瘤患者数学模型。然后再依据所建立的模型对未知的20组患者进行诊断,并最终筛选出判别良恶性肿瘤的主要指标。 针对问题一,我们提出了两种思路: 由题中所给的80组数据来创建一个神经网络,根据此网络来判断肿瘤的良性和恶性。因为给出的确诊数据较少,只有80组,为了提高判别的准确度,所以我们选用径向基函数(RBF)网络。考虑到还需要对所建立的网络进行准确度检验,我们选择了其中的70组数据进行训练模拟网络,然后所有的78组数据对网络进行检验,以确定其准确度。 我们对其中的78组数据进行分析。因为每组数据都包括9项指标和一个判断结果,题中0-1只是一个判断结果,属于虚拟应变量,0-代表良性,1-代表恶性,所以我们将0-1作为概率来考虑,建立线性概率模型。根据题中所给的数据及结果,利用6SQ分析算出得出,并对所求函数进行相关性检验。但当把原来的78组数据代入函数进行检验时,发现并不是所有都在0-1之间,违反概

文档评论(0)

tianma2015 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档