数据挖掘WEKA报告bezdekIris.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第一部分 概述 1.数据挖掘目的:根据已有的数据信息,寻找出鸢尾的属性之间存在怎样的关联规则。 2.数据源:UCI提供的150个实例,每个实例有5个属性。 3.数据集的属性信息: (1). sepal length in cm 萼片长度(单位:厘米)(数值型) (2). sepal width in cm 萼片宽度(单位:厘米)(数值型) (3). petal length in cm 花瓣长度(单位:厘米)(数值型) (4). petal width in cm 花瓣宽度(单位:厘米)(数值型) (5). class: 类型(分类型),取值如下 -- Iris Setosa 山鸢尾 -- Iris Versicolor 变色鸢尾 -- Iris Virginica 维吉尼亚鸢尾 4.试验中我们采用bezdekIris.data数据集,对比UCI发布的iris.data数据集(08-Mar-1993)和bezdekIris.data数据集(14-Dec-1999),可知前者的第35个实例4.9,3.1,1.5,0.1,Iris-setosa和第38个实例4.9,3.1,1.5,0.1,Iris-setosa,后者相应的修改为:4.9,3.1,1.5,0.2,Iris-setosa和4.9,3.1,1.4,0.1,Iris-setosa。 第二部分 将UCI提供的数据转化为标准的ARFF数据集 1. 将数据集处理为标准的数据集,对于原始数据,我们将其拷贝保存到TXT文档,采用UltraEdit工具打开,为其添加属性信息。如图: 2.(1)将bezdekIris.txt文件导入Microsoft Office Excel(导入时,文本类型选择文本文件),如图: (2)下一步,设置分隔符号,如图: (3)得到的XLS格式数据如图: 4.在Excel中将其另存为CSV格式文件(CSV格式的文件和XLS格式文件一样),保存的路径为C:\Program Files\Weka-3-6,方便对其进行转化为weka标准的arff格式文件,如图: 5.采用weka的Simple CLI模块输入命令:java weka.core.converters.CSVLoader bezdekIris.csv bezdekIris.arff 将CSV文件转化为标准ARFF文件。成功完成的提示信息:Finished redirecting output to bezdekIris.arff。得到的数据集如图所示: 6. 至此得到了标准的ARFF格式文件。 第三部分 采用关联规则对ARFF数据集进行处理 1. 对ARFF数据集进行预处理,即进行数据的离散化,将sepal-length, sepal-width, petal-length和petal-width四个数值型的数据转化为分类型的数据,设置相应的参数为:weka.filters.unsupervised.attribute.Discretize -B 10 -M -1.0 -R 1-4,即将每个属性的值分为10类,选择关联规则的Apriori 算法,相应的参数设置为:weka.associations.Apriori -N 10 -T 0 -C 0.9 -D 0.05 -U 1.0 -M 0.1 -S -1.0 -A -c -1,即计划挖掘出支持度在10%到100%之间,并且置信度超过90%,按照置信度排前10条的关联规则。 2. 在关联规则挖掘面板中操作:(1)“car”设置为Ture,表示挖掘为类关联规则;(2)“classIndex”设置为-1,表示最后的属性被当作类属性;(3)把“lowerBoundMinSupport”和“upperBoundMinSupport”分别设为1和0.1,表示支持度的上界和下界;(4)“metricType”设为Confidence,表示以置信度衡量(类关联规则只能用置信度挖掘);(5)“minMetric”设为0.9,表示度量最小值;(6)“numRules”设为10,表示规则数。其他选项保持默认。“OK” 之后在“Explorer”中点击“Start”开始运行算法,在右边窗口显示数据集摘要和挖掘结果,运行结果如下(设置不同的参数得到的结果会有所不同): === Run information === Scheme: weka.associations.Apriori -N 10 -T 0 -C 0.9 -D 0.05 -U 1.0 -M 0.1 -S -1.0 -A -c -1 Relation: bezdekIris-weka.filters.unsupervised.attribute.Discret

文档评论(0)

xingyuxiaxiang + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档