数据挖掘期末实验报告.docxVIP

  • 46
  • 0
  • 约6.18千字
  • 约 36页
  • 2020-03-26 发布于江西
  • 举报
数据挖掘技术期末报告 理学院 姓名: 学号: 联系电话: 专业班级: 评分:优□|良□|中□|及格□|不及格□ 1 一、实验目的 基于从 UCI 公开数据库中下载的数据,使用数据挖掘中的分类算法,用 Weka 平台的基本功能对数据集进行分类,对算法结果进行性能比较,画出性能 比较图,另外针对不同数量的训练集进行对比实验,并画出性能比较图训练并 测试。 二、实验环境 实验采用 Weka 平台,数据使用来自从 UCI 公开数据库中下载,主要使用 其中的 Breast Cancer Wisc-onsin (Original) Data Set 数据。Weka 是怀卡托智能分 析系统的缩写,该系统由新西兰怀卡托大学开发。Weka 使用 Java 写成的,并 且限制在 GNU 通用公共证书的条件下发布。它可以运行于几乎所有操作平台, 是一款免费的,非商业化的机器学习以及数据挖掘软件。Weka 提供了一个统一 界面,可结合预处理以及后处理方法,将许多不同的学习算法应用于任何所给 的数据集,并评估由不同的学习方案所得出的结果。 三、实验步骤 3.1 数据预处理 本实验是针对威斯康辛州(原始)的乳腺癌数据集进行分类,该表含有 Sample code number(样本代码),Clump Thickness(丛厚度),Uniformity of Cell Size(均匀的细胞大小), Uniformity of Cell Shape (均匀的细胞形状), Marginal Adhesion(边际粘连),Single Epithelial Cell Size(单一的上皮细胞大 小),Bare Nuclei(裸核),Bland Chromatin(平淡的染色质),Normal Nucleoli(正常的核仁), Mitoses(有丝分裂),Class(分类),其中第二项到 第十项取值均为1-10,分类中2代表良性,4代表恶性。 通过实验,希望能找出 患乳腺癌客户各指标的分布情况。 该数据的数据属性如下: Sample code number(numeric),样本代码; Clump Thickness(numeric),丛厚度; Uniformity of Cell Size(numeric)均匀的细胞大小; Uniformity of Cell Shape(numeric),均匀的细胞形状; Marginal Adhesion(numeric),边际粘连; Single Epithelial Cell Size(numeric),单一的上皮细胞大小; 2 Bare Nuclei(numeric),裸核; Bland Chromatin(numeric),平淡的染色质; Normal Nucleoli(numeric),正常的核仁; Mitoses(numeric),有丝分裂; Class(enum),分类。 3.2 数据分析 由 UCI 公开数据库得到一组由逗号隔开的数据,复制粘贴至 excel 表中,选 择数据——分列——下一步——逗号——完成,该数据是有关乳腺癌数据集, 有 11 个属性,分别为 Sample code number(样本代码),Clump Thickness(丛 厚度),Uniformity of Cell Size(均匀的细胞大小),Uniformity of Cell Shape (均匀的细胞形状),Marginal Adhesion(边际粘连),Single Epithelial Cell Size(单一的上皮细胞大小),Bare Nuclei(裸核),Bland Chromatin(平淡的染 色质),Normal Nucleoli(正常的核仁), Mitoses(有丝分裂),Class(分类), 因为复制粘贴过来的数据没有属性,所以手 工 添 加 一 行 属 性 名 。 Weka 分类 数 据 需 把 excel 保 存 为 一 个 csv 文 件 。 图 1 中 显 示 的 是 使 用 “ Exploer” 打开 “ 乳 腺 癌 数 据 集 .csv.arff” 的 情 况 . 如 图 1 所 示 : 3 (图 1) 3.2.1 数据预 处 理 很 明 显 发 现 , 所 用 的 数 据 都 是 (numeric)数 值 型 的 , 需 要 将 数 值 型 离 散 化 , 将 “Clump Thickness ”,“Uniformity of Cell Size ”,“Uniformity of Cell Shape”,“Marginal Adhesion ”,“Marginal Adhesion ”,“Bare Nuclei  ”,“ Bland Chromatin ”,“Normal Nucleoli ”,“

文档评论(0)

1亿VIP精品文档

相关文档