- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第一部分 概述
1.数据挖掘目的:根据已有的数据信息,寻找出鸢尾的属性之间存在怎样的关联规则。
2.数据源:UCI提供的150个实例,每个实例有5个属性。
3.数据集的属性信息:
(1). sepal length in cm 萼片长度(单位:厘米)(数值型)(2). sepal width in cm 萼片宽度(单位:厘米)(数值型)(3). petal length in cm 花瓣长度(单位:厘米)(数值型)(4). petal width in cm 花瓣宽度(单位:厘米)(数值型)(5). class: 类型(分类型),取值如下-- Iris Setosa 山鸢尾-- Iris Versicolor 变色鸢尾-- Iris Virginica 维吉尼亚鸢尾
4.试验中我们采用bezdekIris.data数据集,对比UCI发布的iris.data数据集(08-Mar-1993)和bezdekIris.data数据集(14-Dec-1999),可知前者的第35个实例4.9,3.1,1.5,0.1,Iris-setosa和第38个实例4.9,3.1,1.5,0.1,Iris-setosa,后者相应的修改为:4.9,3.1,1.5,0.2,Iris-setosa和4.9,3.1,1.4,0.1,Iris-setosa。
第二部分 将UCI提供的数据转化为标准的ARFF数据集
1. 将数据集处理为标准的数据集,对于原始数据,我们将其拷贝保存到TXT文档,采用UltraEdit工具打开,为其添加属性信息。如图:
2.(1)将bezdekIris.txt文件导入Microsoft Office Excel(导入时,文本类型选择文本文件),如图:
(2)下一步,设置分隔符号,如图:
(3)得到的XLS格式数据如图:
4.在Excel中将其另存为CSV格式文件(CSV格式的文件和XLS格式文件一样),保存的路径为C:\Program Files\Weka-3-6,方便对其进行转化为weka标准的arff格式文件,如图:
5.采用weka的Simple CLI模块输入命令:java weka.core.converters.CSVLoader bezdekIris.csv bezdekIris.arff 将CSV文件转化为标准ARFF文件。成功完成的提示信息:Finished redirecting output to bezdekIris.arff。得到的数据集如图所示:
6. 至此得到了标准的ARFF格式文件。
第三部分 采用关联规则对ARFF数据集进行处理
1. 对ARFF数据集进行预处理,即进行数据的离散化,将sepal-length, sepal-width, petal-length和petal-width四个数值型的数据转化为分类型的数据,设置相应的参数为:weka.filters.unsupervised.attribute.Discretize -B 10 -M -1.0 -R 1-4,即将每个属性的值分为10类,选择关联规则的Apriori 算法,相应的参数设置为:weka.associations.Apriori -N 10 -T 0 -C 0.9 -D 0.05 -U 1.0 -M 0.1 -S -1.0 -A -c -1,即计划挖掘出支持度在10%到100%之间,并且置信度超过90%,按照置信度排前10条的关联规则。
2. 在关联规则挖掘面板中操作:(1)“car”设置为Ture,表示挖掘为类关联规则;(2)“classIndex”设置为-1,表示最后的属性被当作类属性;(3)把“lowerBoundMinSupport”和“upperBoundMinSupport”分别设为1和0.1,表示支持度的上界和下界;(4)“metricType”设为Confidence,表示以置信度衡量(类关联规则只能用置信度挖掘);(5)“minMetric”设为0.9,表示度量最小值;(6)“numRules”设为10,表示规则数。其他选项保持默认。“OK” 之后在“Explorer”中点击“Start”开始运行算法,在右边窗口显示数据集摘要和挖掘结果,运行结果如下(设置不同的参数得到的结果会有所不同):
=== Run information ===
Scheme: weka.associations.Apriori -N 10 -T 0 -C 0.9 -D 0.05 -U 1.0 -M 0.1 -S -1.0 -A -c -1
Relation: bezdekIris-weka.filters.unsupervised.attribute.Discret
您可能关注的文档
最近下载
- 高一数学幂函数、指数函数和对数函数练习题(含答案).docx VIP
- 新疆市政定额-第11册 钢筋工程、拆除工程.pdf VIP
- 运动强度控制方法.pptx VIP
- 2024年新人教道德与法治一年级上册全册教学课件(新版教材).pptx
- (人教版)小学数学六年级上册单元培优卷第一单元《分数乘法》(原卷版).docx VIP
- 2020年护士资格证考试常见疾病试题:循环系统解剖生理.docx VIP
- 2025年最新人教版七年级(初一)数学上册教学计划及进度表(新课标,新教材).docx
- 《如何提升领导力》课件.pptx VIP
- 《挺身式跳远》课件.ppt VIP
- 《腕管综合征》课件.ppt VIP
文档评论(0)