WEKA对UCI乳腺癌数据数据挖掘实验报告.docxVIP

WEKA对UCI乳腺癌数据数据挖掘实验报告.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
【原创】 定制撰写数据分析可视化项目案例调研报告 (附代码数据) 【原创】 定制撰写数据分析可视化项目案例调研报告 (附代码数据) 有问题到淘宝找“大数据部落”就可以了 PAGE PAGE 1 / 5 WEKA 对wisconsin-breast-cancer 数据挖掘分析报告 一、 数据集 实验采用UCI 数据集中的Wisconsin 医学院的William H.Wolberg 博士提供的乳腺癌 的 数 据 样 本 ( /ml/machine-learning-databases/breast-cancer-wi sconsin/)。所有数据来自真实临床案例,每个案例有 10 个属性。其中前九个属性是检测指标,每个属性值用 1 到 10 的整数表示,1 表示检测指标最正常,10 表示最不正常。第十个属性是分类属性,指示该肿瘤是否为恶性。数据集中的肿瘤性质是通过活检得出的结果。 肿块厚度 Clump_Thickness integer [1,10] 细胞大小的均匀性 Cell_Size_Uniformity integer [1,10] 细胞形状的均匀性 Cell_Shape_Uniformity integer [1,10] 边缘粘性 Marginal_Adhesion integer [1,10] 单上皮细胞的大小 Single_Epi_Cell_Size integer [1,10] 裸核 Bare_Nuclei integer [1,10] 乏味染色体 Bland_Chromatin integer [1,10] 正常核 Normal_Nucleoli integer [1,10] 有丝分裂 Mitoses integer [1,10] 肿瘤性质 Class { benign, malignant} 该数据集共有 669 个实例。 本次实验对以上数据集进行了分类、聚类、关联规则三部分操作,以熟悉weka 软件的操作使用,并尝试挖掘数据中的实际价值。分类中,尝试用前九个属性值来预测肿瘤的性质(良性、恶性);聚类中,寻找各个簇病人(尤其是恶性肿瘤病人)的显著特征,可用来辅助制定针对性治疗计划;关联规则的探索,寻找不同属性值之间的相关性。 二、 分类 数据预处理 将 wisconsin-breast-cancer 数据集分割为两个,分别作为 trainset(469 个)和 testset(200 个)。 实验过程 用 j48 分类树对 trainset 进行分类运算,结果如下: 结果表明,模型分类的准确率达到了96%。Confusion Matrix 表明有 13 例良性肿瘤被错位的归类为恶性(4.5%);有 6 例恶性肿瘤被错误的归类为良性(3.1%)。 将以上模型应用于 testset 以检验预测准确率,运行结果如下: 结果表明,预测准确率达到了 99%。Confusion Matrix 表示有 2 例良性肿瘤被错误的归类为恶性(1.3%);而恶性肿瘤均被正确分类。 结果分析 首先,通过检验,j48 方法通过训练集生成的决策树对肿瘤性质的预测准确率可以稳定在较高水平,因此可以将此模型用于临床诊断。这对于因医疗条件不佳而不能进行 活检或病灶位置不易进行活检的病人来说具有较高的实用价值。 其次,从分类树可以看出,肿瘤性质与“细胞大小均匀性”“裸核”属性的关联度较高;而“细胞形状均匀性”“边缘粘性”“单上皮细胞大小”“乏味染色体”“有丝分裂”对肿瘤良、恶性的诊断几乎没有参考意义。这表明在日常诊断中,若受医疗条件和治疗时机的制约,可以适当减少检测指标,根据预测结果尽早采取治疗措施。 最后,通过对Confusion Matrix 的分析可知,该模型存在两类错误:将良性误诊为恶性、将恶性误诊为良性。这两类错误都是应该极力避免的,第一类错误可能导致病人情绪低落、不配合治疗,最终导致病情恶化;第二类错误可能导致治疗方案的错误,过于激进的治疗可能适得其反。很难评判这两类错误哪种更为严重,但模型的结果表明, 犯第二类错误的概率较低,特别在测试集中,准确率达到了100%。 三、 聚类 数据预处理 由于聚类中对于离散属性将显示其众数,不利于了解数值结构,所以将Class 属性类型由 Nominal 转换为 Numeric。用0 表示 benign,即良性;1 表示 malignant,即恶性。这样各个簇中的数值越接近 1,表明该簇中恶性肿瘤比例越高。 实验过程 用 SimplekMeans 算法,设置参数 numClusters=5,seed=50 进行聚类运算,得到结果如下: 3. 3. 结果分析 上述聚类结果共有五个簇,而且恰巧Class 属性的均值均为整数,这表明每一个簇中的各实例的肿瘤性质相同。

文档评论(0)

hao187 + 关注
官方认证
文档贡献者

该用户很懒,什么也没介绍

认证主体武汉豪锦宏商务信息咨询服务有限公司
IP属地上海
统一社会信用代码/组织机构代码
91420100MA4F3KHG8Q

1亿VIP精品文档

相关文档