乳腺癌数据处理介绍.doc

  1. 1、本文档共22页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
乳腺癌的数据处理 摘要 本文解决的是乳腺肿瘤的“良”“恶”性判别问题。现在是通过乳腺肿瘤的9项指标来判定乳腺肿瘤患者是否患有乳腺癌,我们通过运用Logistic 回归分析判定模型和费歇尔(Fisher)判别模型,对9项指标进行综合判定、分析,最终制定了一个科学的乳腺肿瘤的判别方法,以便人们能及早发现并且治疗。 对于问题一:我们建立了两种模型——Logistic回归分析判定模型和费歇尔(Fisher)判别模型。对于Logistic回归模型,我们对数据进行分析并运用MATLAB 软件求出回归系数,再由Logistic回归方程求出概率p,进而与概率值0.5进行判断,小于0.5则为良性,反之,则为恶性,最终得出正确率为85%的判定方法。对于费歇尔(Fisher)判别模型,我们借助方差分析的思想构造判定函数,通过样本SPSS软件对数据进行分析得出判定系数ci,接着求出临界值y0,最终把要检验的样本数据代入判定函数求出y值,将y值与临界值y0进行比较,从而确定肿瘤性质,最终得出正确率为95%的判别方法。 对于问题二:由第一问得出模型二费歇尔(Fisher)判别模型正确率更高,所以可以根据费歇尔(Fisher)判别方法来判断所给组是良性还是恶性,先将各组数据直接代入模型二中求出的判定公式中,求得各组相应的y值,通过与y0进行比较,来判断肿瘤患者是为良性还是恶性。最终判定结果如下表: 编号 1 2 3 4 5 6 7 8 9 10 检测结果 1 0 1 1 0 1 0 1 0 1 编号 11 12 13 14 15 16 17 18 19 20 检测结果 0 1 0 0 1 0 0 0 0 0 (注:检测结果“1”代表肿瘤为恶性,“0”代表肿瘤为良性) 对于问题三:为区分肿瘤是良性还是恶性的主要指标,我们根据Fisher模型,求出系数和良性、恶性肿瘤中各项指标的均值、,最终求出指标剔除判定数组,剔除当中绝对值最小的一个,依次类推,得到剔除的先后顺序,并求出相应的检验准确率,选择高准确率情况下指标剔除较多的一组,最终得出区分肿瘤是良性还是恶性的主要指标为:乳腺肿瘤肿块的厚度、单层上皮细胞的大小、裸核、正常的核仁。 关键词: logistic判别法 费歇尔判别法 BP神经网络 SPSS 一、问题重述 问题背景: 如今,癌症越来越多,发病率越来越高,不断威胁着人们的生命安全,其中乳腺癌就是其中一种严重威胁女性生命的癌症之一,全世界每年约有120万妇女患乳腺癌,50万人死于乳腺癌,乳腺癌已经成为全球女性发病率最高的恶性肿瘤。 下面是某医院乳腺肿瘤患者的一组数据(具体数据见附录),其中前面9个指标分别表示乳腺肿瘤肿块的厚度、细胞大小的均匀性、 细胞形状的均匀性、边缘的粘连、单层上皮细胞的大小、裸核、温和的染色质、正常的核仁、有丝分裂,尾数0表示确诊为“良性”,1表示确诊为“恶性”,数据已经归一化为0到10之间的自然数。 所要解决的问题如下: 问题一、通过以上数据,建立一种或多种判别方法,用来判断乳腺肿瘤是属于“良性” 还是 “恶性”,并检验这些方法的正确性。 问题二、现有一组乳腺肿瘤患者的九个指标数据如下,根据问题一中提出的方法分别判别属于“良性”还是“恶性” 10, 4,7,2,2,8,6,1,1 5,1,1,1,2,1,3,1,2, 5,2,2,2,2,1,2,2,1 5,4,6,6,4,10,4,3,1 8,6,7,3,3,10,3,4,2 1,1,1,1,2,1,1,1,1 6,5,5,8,4,10,3,4,1 1,1,1,1,2,1,3,1,1 1,1,1,1,1,1,2,1,1 8,5,5,5,2,10,4,3,1 10,3,3,1,2,10,7,6,1 1,1,1,1,2,1,3,1,1 2,1,1,1,2,1,1,1,1 1,1,1,1,2,1,1,1,1 7,6,4,8,10,10,9,5,3 1,1,1,1,2,1,1,1,1 1,1,1,1,1,1,1,3,1 3,4,4,10,5,1,3,3,1 4,2,3,5,3,8,7,6,1 5,1,1,3,2,1,1,1,1 问题三、试确定区分乳腺肿瘤是“良性”还是“恶性”的主要指标,并采用主要指标建立区分“良性”和“恶性” 乳腺肿瘤的模型,以便用于乳腺肿瘤的辅助诊断时可以减少化验的指标。 二、模型假设 假设1:各种指标对肿瘤的影响是相对独立的。 假设2:9个指标中的数据都是0-10之间的自然数。 假设3:肿瘤只有良性和恶性两种情况。 假设4:每组数据独立作用互不影响。 假设5:数据缺失组对判定无影响。 假

文档评论(0)

00625 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档