数据挖掘实验报告.docxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

《数据挖掘》

Weka实验报告

姓名 _ 学号_指导教师

开课学期 2015 至 2016 学年 2 学期完成日期 2015年6月12日

实验目的

基于/ml/datasets/Breast+Cancer+WiscOnsin+%28Ori-ginal%29的数据,使用数据挖掘中的分类算法,运用Weka平台的基本功能

对数据集进行分类,对算法结果进行性能比较,画出性能比较图,另外针对不同数量的训练集进行对比实验,并画出性能比较图训练并测试。

实验环境

实验采用Weka平台,数据使用来自/ml/Datasets/Br-east+Cancer+WiscOnsin+%28Original%29,主要使用其中的BreastCancer

Wisc-

onsin(Original)DataSet数据。Weka是怀卡托智能分析系统的缩写,该系统由新西兰怀卡托大学开发。Weka使用Java写成的,并且限制在GNU通用公共证书的条件下发布。它可以运行于几乎所有操作平台,是一款免费的,非商业化的机器学习以及数据挖掘软件。Weka提供了一个统一界面,可结合预处理以及后处理方法,将许多不同的学习算法应用于任何所给的数据集,并评估由不同的学习方案所得出的结果。

实验步骤

数据预处理

本实验是针对威斯康辛州(原始)的乳腺癌数据集进行分类,该表含有Samplecodenumber(样本代码),ClumpThickness(丛厚度),UniformityofCellSize

(均匀的细胞大小),UniformityofCellShape(均匀的细胞形状),MarginalAdhesion(边际粘连),SingleEpithelialCellSize(单一的上皮细胞大小),BareNuclei(裸核),BlandChromatin(平淡的染色质),NormalNucleoli(正常的核仁),Mitoses(有丝分裂),Class(分类),其中第二项到第十项取值均为1-10,分类中2代表良性,4代表恶性。通过实验,希望能找出患乳腺癌客户各指标的分布情况。

该数据的数据属性如下:

Samplecodenumber(numeric),样本代码;

ClumpThickness(numeric),丛厚度;

1

UniformityofCellSize(numeric)均匀的细胞大小;

UniformityofCellShape(numeric),均匀的细胞形状;5.MarginalAdhesion(numeric),边际粘连;

6.SingleEpithelialCellSize(numeric),单一的上皮细胞大小;7.BareNuclei(numeric),裸核;

BlandChromatin(numeric),平淡的染色质;

NormalNucleoli(numeric),正常的核仁;10.Mitoses(numeric),有丝分裂;11.Class(enum),分类。

数据分析

由/ml/datasets/Breast+Cancer+WiscOnsin+%28Ori-ginal%29得到一组由逗号隔开的数据,复制粘贴至excel表中,选择数据—

—分列——下一步——逗号——完成,该数据是有关乳腺癌数据集,有11个属

性,分别为Samplecodenumbe(r

样本代码),ClumpThicknes(s

丛厚度),Uniformity

ofCellSize(均匀的细胞大小),UniformityofCellShape(均匀的细胞形状),MarginalAdhesion(边际粘连),SingleEpithelialCellSize(单一的上皮细胞大小),BareNuclei(裸核),BlandChromatin(平淡的染色质),NormalNucleoli

(正常的核仁),Mitoses(有丝分裂),Class(分类),因为复制粘贴过来的数据没有属性,所以手工添加一行属性名。Weka分类数据需把excel保存为一个csv文件。

.csv-.arff

将CSV转换为ARFF最迅捷的办法是使用 WEKA所带的命令行工具。打开weka,之后出现GUI界面,如图1所示:

2

(图1)

点击进入“Exploer”模块,要将.csv 格式转换为 .arff格式,点击openfile...,

打开刚保存的“乳腺癌数据集 .csv”,点击“Save...”,将文件保存为“乳腺癌数据集.csv.arff”如图2所示

文档评论(0)

tianya189 + 关注
官方认证
文档贡献者

该用户很懒,什么也没介绍

认证主体阳新县融易互联网技术工作室
IP属地上海
统一社会信用代码/组织机构代码
92420222MA4ELHM75D

1亿VIP精品文档

相关文档