- 1、本文档共30页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据仓库与数据挖掘实验指导书王浩畅
数据仓库与数据挖掘
实
验
指
导
书
东北石油大学计算机与信息技术系
王浩畅
实验一 Weka实验环境初探
一、实验名称:
Weka实验环境初探
二、实验目的:
通过一个已有的数据集,在weka环境下,测试常用数据挖掘算法,熟悉Weka环境。
三、实验要求
熟悉weka的应用环境。
了解数据挖掘常用算法。
在weka环境下,测试常用数据挖掘算法。
四、实验平台
新西兰怀卡托大学研制的Weka系统
五、实验数据
Weka安装目录下data文件夹中的数据集weather.nominal.arff,weather.arff
六、实验方法和步骤
1、首先,选择数据集weather.nominal.arff,操作步骤为点击Explorer,进入主界面,点击左上角的“Open file...”按钮,选择数据集weather.nominal.arff文件,该文件中存储着表格中的数据,点击区域2中的“Edit”可以看到相应的数据:
选择上端的Associate选项页,即数据挖掘中的关联规则挖掘选项,此处要做的是从上述数据集中寻找关联规则。点击后进入如下界面:
2、现在打开weather.arff,数据集中的类别换成数字。
选择上端的Associate选项页,但是在Associate选项卡中Start按钮为灰色的,也就是说这个时候无法使用Apriori算法进行规则的挖掘,原因在于Apriori算法不能应用于连续型的数值类型。所以现在需要对数值进行离散化,就是类似于将20-30℃划分为“热”,0-10℃定义为“冷”,这样经过对数值型属性离散化
从中可以看出,对于“温度”这一项,一共有12条不同的内容,最小值为64(单位:华氏摄氏度,下同),最大值为85,选择过滤器“choose”按钮,或者在同行的空白处点击一下,即可弹出过滤器选择框,逐级找到 .filters.unsupervised.attribute.Discretize”,点击;若无法关闭这个树,在树之外的地方点击 Explorer”面板即可
现在Choose”旁边的文本框应该显示Discretize -B 10 -M -0.1 -R first-last”。点击这个文本框会弹出新窗口以修改离散化的参数。不打算对所有的属性离散化,只是针对对第个和第个属性,故把attributeIndices右边改成 ,3”。计划把这两个属性都分成3段,于是把bins”改成3”。其它框里不用更改,关于的可以点More”查看。点OK”回到 Explorer”,可以看到和已经被离散化成分类型的属性。若想放弃离散化可以点Undo”。
可以看到temperature属性信息如下显示:
Humidity属性变成如下样式:
3、在Classify,Cluster,Associate选项中分别尝试不同算法。
七、通过实验,掌握Weka的使用
实验二 基于关联规则的信息获取
一、实验名称:
基于关联规则的信息获取
二、实验目的:
通过一个已有的训练数据集,观察训练集中的实例,进行关联信息获取,更好地理解和掌握关联规则算法的基本原理,建立相应的预测模型,然后对新的未知实例进行预测,预测的准确程度来衡量所建立模型的好坏。
三、实验要求
1、熟悉Weka平台
2、掌握关联规则算法
3、对数据进行预处理,利用Weka和不同参数设置进行关联分析,对比结果,得出结论,对问题进行总结。
四、实验平台
新西兰怀卡托大学研制的Weka系统
五、实验数据
1、使用银行对资产进行评估的数据bank-data.arf,数据里有12个属性,分别是id,age,sex,region,income,married,children, car, save_act, current_act, mortgage,pep.共600个实例。
六、实验方法和步骤
1、打开WEKA界面如下:界面中有四个选择Simple CLC, Explorer, Experimenter, KnowledgeFlow。 我们选择Explorer进行实验。
文件格式转化为ARFF的方式。
2、选择Explorer选项,选择Open file打开bank-data.arff数据,打开可以看见数据中的属性,选择属性从右边可以看到它的取值范围
1)CSV换成ARFF格式
将CSV转换为ARFF最迅捷的办法是使用WEKA所带的命令行工具。运行WEKA的主程序,出现GUI后可以点击下方按钮进入相应的模块。我们点击进入“Simple CLI”模块提供的命令行功能。在新窗口的最下方(上方是不能写字的)输入框写上 java weka.core.converters.CSVLoader filename.csv filename.arff 即可完成转换。 在WEKA 3
您可能关注的文档
- 数字图像处理实验指导书2014.doc
- 数字图像处理分析IPA7.ppt
- 数字电子技术实验1.ppt
- 数字图像处理04频域处理增强.ppt
- 数字图象处理 第6章 图像复原.ppt
- 数字电路实验多路彩灯.doc
- 数字电子技术一实验指导书13142.doc
- 数字视频信息的加工教学设计.doc
- 数字图像处理分析IPA5.ppt
- 数字通信原理1绪论.ppt
- 2025年广西中考地理二轮复习:专题四+人地协调观+课件.pptx
- 2025年广西中考地理二轮复习:专题三+综合思维+课件.pptx
- 2025年中考地理一轮教材梳理:第4讲+天气与气候.pptx
- 第5讲+世界的居民课件+2025年中考地理一轮教材梳理(商务星球版).pptx
- 冀教版一年级上册数学精品教学课件 第1单元 熟悉的数与加减法 1.1.6 认识1-9 第6课时 合与分.ppt
- 2025年中考一轮道德与法治复习课件:坚持宪法至上.pptx
- 2025年河北省中考一轮道德与法治复习课件:崇尚法治精神.pptx
- 八年级下册第二单元+理解权利义务+课件-2025年吉林省中考道德与法治一轮复习.pptx
- 精品解析:湖南省娄底市2019-2020学年八年级(上)期中考试物理试题(原卷版).doc
- 2025年中考地理一轮教材梳理:第10讲+中国的疆域与人口.pptx
文档评论(0)