- 1、本文档共25页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘技术在乳腺癌诊断中的应用决策树与随机森林分类器应用组员: 黄翊轩 张颐宗何 芸 郭姿苓Contentart twoPart threePart onePart four数据准备决策树分类器应用问题背景介绍随机森林分类器应用PART 1问题背景介绍The problem Introduction问题背景介绍Lorem ipsum dolor sit amet kolor乳腺癌目前,乳腺癌已成为世界上妇女发病率最高的癌症。近年来在中国,尤其在相对比较发达的东部地区,乳腺癌的发病率及死亡率呈明显的增长趋势。研究表明,乳腺恶性肿瘤若能早期发现、早期诊断、早期治疗,可取得良好的效果。诊断方法过去的 20 年里,人们在分析和诊断各种乳腺肿瘤方面发现了很多方法,尤其是针对乳腺图像的分析巳日趋成熟。医学研究发现,乳腺肿瘤病灶组织的细胞核显微图像与正常组织的细胞核显微图像不同,但是用一般的图像处理方法很难对其进行区分。研究目的运用科学的方法,根据乳腺肿瘤病灶组织的细胞核显微图像对乳腺肿瘤属于良性还是恶性进行诊断PART 2数据准备Data?preparation数据集合Breast Cancer Wisconsin (Diagnostic) Data Set威斯康辛大学医学院经过多年的收集和整理,建立了一个乳腺肿瘤病灶组织的细胞核显微图像数据库。数据集特征:多变量实例数目:569领域:生命科学属性特征:真实属性数目:32捐赠日期1995-11-01关联任务:分类是否有缺失值?无网站点击量:420706/ml/datasets/Breast+Cancer+Wisconsin+%28Diagnostic%29数据特征值数据库中包含了细胞核图像的 10 个量化特征(细胞核半径、质地、周长、面积、光滑性、紧密度、凹陷度、凹陷点数、对称度、断裂度),这些特征与肿瘤的性质有密切的关系。Radius (mean of distances from center to points on the perimeter)Texture (standard deviation of gray-scale values) Perimeter AreaSmoothness (local variation in radius lengths)Compactness (perimeter^2 / area - 1.0)Concavity (severity of concave portions of the contour)Concave points (number of concave portions of the contour)SymmetryFractal dimension (coastline approximation - 1)数据集准备原始数据描述威斯康辛大学医学院的乳腺癌数据集共包括569个病例 其中:良性 357,占比62.7% 恶性 212 例,占比37.3%。62.7%训练集与测试集选择随机选取 500 组数据作为训练集,剩余 69 组作为测试集。细胞核平均值标准差最坏值半径11121质地21222周长31323面积41424光滑性51525紧密度61626凹陷度71727凹陷点数81828对称度91929断裂度102030数据表字段设计与描述每个病例的一组数据包括采样组织中各细胞核的 10 个特征量的平均值、标准差和最坏值(各特征的3个最大数据的平均值)共 30 个数据。数据文件中每组数据共分 32 个字段:第1个字段为病例编号第2个字段为确诊结果,B为良性,M为恶性 第3-12个字段是该病例肿瘤病灶组织的各细胞核显微图像的10个量化特征的平均值第13-22个字段是相应量化特征的标准差第23-32个字段是相应量化特征的最坏值数据探索凹陷点数( worst ) – 面积 (worst )病例分布 决策树错误分类病例分布PART 3决策树分类器应用The decision tree classifier模型流程设计设计思路:将乳腺肿瘤病灶组织的细胞核显徽图像的 10 化特征作为模型的输入良性乳腺肿瘤和恶性乳腺肿瘤作为模型的输出用训练集数据进行决策树分类器的创建 然后对测试集数据进行仿真测试最后对测试结果进行分析C4.5复杂决策树Lorem ipsum dolor sit amet kolor训练集误差98.4%信息增益率(gain ratio)仿真测试结果分析总数良性病例数恶性病例数良性病例比例恶性病例比例全部病例56935721262.7%37.3%训练集病例50031518563.0%37.0%测试集病9%39.1%良性病例恶性病例诊断汇总诊断良性36137诊断恶性62632病例汇总4
您可能关注的文档
- 5智能车教程1-第1章第二部分.ppt
- 5智能车教程1-第1章第一部分.ppt
- 5智能车教程1-第2章.ppt
- 5智能车教程1-第3章软件.ppt
- 12.HIT紫丁香队.基于Wi-Fi 的老人安全监测系统.ppt
- 12.HIT紫丁香队.基于Wi-Fi 的老人安全监测系统.pptx
- 16_7 RSLogix5000项目中比较指令的程序开发.ppt
- C++学习-0-预备知识.pptx
- C++学习-1-基本数据与表达式.pptx
- C++学习-2-程序控制结构.pptx
- DB44_T 2611-2025 城市排水管网有毒有害气体监测与风险分级管理技术标准.pdf
- DB44_T 2612-2025 竞赛类科普活动策划与实施服务规范.pdf
- DB43_T 2947-2024 烟草种子质量控制规程.pdf
- DB37_T 4836-2025 煤矿风量实时监测技术要求.pdf
- 叉车防撞系统,全球前22强生产商排名及市场份额(by QYResearch).docx
- 超滤膜,全球前18强生产商排名及市场份额(by QYResearch).docx
- DB62T 4172-2020 玉米品种 酒623规范.pdf
- DB62T 4160-2020 在用真空绝热深冷压力容器综合性能在线检测方法.pdf
- DB62T 4164-2020 辣椒品种 酒椒1号.pdf
- DB62T 4133-2020 公路隧道地质超前预报机械能无损探测技术规程.pdf
文档评论(0)