- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
《数据挖掘》
Weka实验报告
姓名 _ 学号_指导教师
开课学期 2015 至 2016 学年 2 学期完成日期 2015年6月12日
实验目的
基于/ml/datasets/Breast+Cancer+WiscOnsin+%28Ori-ginal%29的数据,使用数据挖掘中的分类算法,运用Weka平台的基本功能
对数据集进行分类,对算法结果进行性能比较,画出性能比较图,另外针对不同数量的训练集进行对比实验,并画出性能比较图训练并测试。
实验环境
实验采用Weka平台,数据使用来自/ml/Datasets/Br-east+Cancer+WiscOnsin+%28Original%29,主要使用其中的BreastCancer
Wisc-
onsin(Original)DataSet数据。Weka是怀卡托智能分析系统的缩写,该系统由新西兰怀卡托大学开发。Weka使用Java写成的,并且限制在GNU通用公共证书的条件下发布。它可以运行于几乎所有操作平台,是一款免费的,非商业化的机器学习以及数据挖掘软件。Weka提供了一个统一界面,可结合预处理以及后处理方法,将许多不同的学习算法应用于任何所给的数据集,并评估由不同的学习方案所得出的结果。
实验步骤
数据预处理
本实验是针对威斯康辛州(原始)的乳腺癌数据集进行分类,该表含有Samplecodenumber(样本代码),ClumpThickness(丛厚度),UniformityofCellSize
(均匀的细胞大小),UniformityofCellShape(均匀的细胞形状),MarginalAdhesion(边际粘连),SingleEpithelialCellSize(单一的上皮细胞大小),BareNuclei(裸核),BlandChromatin(平淡的染色质),NormalNucleoli(正常的核仁),Mitoses(有丝分裂),Class(分类),其中第二项到第十项取值均为1-10,分类中2代表良性,4代表恶性。通过实验,希望能找出患乳腺癌客户各指标的分布情况。
该数据的数据属性如下:
Samplecodenumber(numeric),样本代码;
ClumpThickness(numeric),丛厚度;
1
UniformityofCellSize(numeric)均匀的细胞大小;
UniformityofCellShape(numeric),均匀的细胞形状;5.MarginalAdhesion(numeric),边际粘连;
6.SingleEpithelialCellSize(numeric),单一的上皮细胞大小;7.BareNuclei(numeric),裸核;
BlandChromatin(numeric),平淡的染色质;
NormalNucleoli(numeric),正常的核仁;10.Mitoses(numeric),有丝分裂;11.Class(enum),分类。
数据分析
由/ml/datasets/Breast+Cancer+WiscOnsin+%28Ori-ginal%29得到一组由逗号隔开的数据,复制粘贴至excel表中,选择数据—
—分列——下一步——逗号——完成,该数据是有关乳腺癌数据集,有11个属
性,分别为Samplecodenumbe(r
样本代码),ClumpThicknes(s
丛厚度),Uniformity
ofCellSize(均匀的细胞大小),UniformityofCellShape(均匀的细胞形状),MarginalAdhesion(边际粘连),SingleEpithelialCellSize(单一的上皮细胞大小),BareNuclei(裸核),BlandChromatin(平淡的染色质),NormalNucleoli
(正常的核仁),Mitoses(有丝分裂),Class(分类),因为复制粘贴过来的数据没有属性,所以手工添加一行属性名。Weka分类数据需把excel保存为一个csv文件。
.csv-.arff
将CSV转换为ARFF最迅捷的办法是使用 WEKA所带的命令行工具。打开weka,之后出现GUI界面,如图1所示:
2
(图1)
点击进入“Exploer”模块,要将.csv 格式转换为 .arff格式,点击openfile...,
打开刚保存的“乳腺癌数据集 .csv”,点击“Save...”,将文件保存为“乳腺癌数据集.csv.arff”如图2所示
文档评论(0)