- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘weka实验
南京邮电大学
2013-2014学年第一学期
《数据挖掘》
课程大作业
题 目: WEKA实验学习体验
院系名称:管理学院
专业名称:信息管理与信息系统
班 级:B101117
学 号:
姓 名:周 亮
WEKA实验学习
WEKA的全名是怀卡托智能分析环境(Waikato Environment for Knowledge Analysis),它的源代码可通过http://www.cs.waikato.ac.nz/ml/weka得到。同时weka也是新西兰的一种鸟名,而WEKA的主要开发者来自新西兰。 WEKA 集合了大量能承担数据挖掘任务的机器学习算法,包括对数据进行预处理,分类,回归、聚类、关联规则以及在新的交互式界面上的可视化。如果想自己实现数据挖掘算法的话,可以看一看weka的接口文档。在weka中集成自己的算法甚至借鉴它的方法自己实现可视化工具并不是件很困难的事情。 使用WEKA作数据挖掘,面临的第一个问题往往是我们的数据不是ARFF格式.
首先我们来看看WEKA所用的数据应是什么样的格式。跟很多电子表格或数据分析软件一样,WEKA所处理的数据集是图1那样的一个二维的表格。
图1
WEKA支持的datatype有四种,分别是numeric-------------------------数值型nominal-specification-----分类(nominal)型 string----------------------------字符串型date [date-format]--------日期和时间型其中nominal-specification 和date-format 将在下面说明。还可以使用两个类型“integer”和“real”,但是WEKA把它们都当作“numeric”看待。注意“integer”,“real”,“numeric”,“date”,“string”这些关键字是区分大小写的,而“relation”“attribute ”和“date”则不区分。
Weka 试验(Experiment)环境可以让用户创建,运行,修改和分析算法试验,这也许比单独的分析各个算法更加方便。例如,用户可创建一次试验,在一系列数据集上运行多个算法(schemes),然后分析结果以判断是否某个算法比其他算法(在统计意义下)更好。
下面就bank--data表操作学习的过程来系统的演示一下:
首先是WEKA的开始屏
在启动 WEKA 时,会弹出 GUI 选择器,让您选择使用 WEKA 和数据的四种方式。对于本文章系列中的例子,我们只选择了 Explorer 选项。对于我们要在这些系列文章中所需实现的功能,这已经足够。
ID 这样的信息是无用的,我们将之删除。在区域5 勾选属性“id”,并点击
“Remove”。将新的数据集保存一次,并用UltraEdit 打开这个ARFF 文件。我们发现,在属性声明部分,WEKA 已经为每个属性选好了合适的类型。我们知道,有些算法,只能处理所有的属性都是分类型的情况。这时候我们就需要对数值型的属性进行离散化。在这个数据集中有3 个变量是数值型的,分别是“age”,“income”和“children”。其中“children”只有4 个取值:0,1,2,3。在“Explorer”中重新打开“bank-data.arff”,看看选中“children”属性后,区域6 那里显示的“Type”是不
是变成“Nominal”了?
操作结果如下图
6. 聚类分析
原理与实现
聚类分析中的“类”(cluster)和前面分类的“类”(class)是不同的,对cluster 更加准确的翻译应该是“簇”。聚类的任务是把所有的实例分配到若干的簇,使得同一个簇的实例聚集在一个簇中心的周围,它们之间距离的比较近;而不同簇实例之间的距离比较远。对于由数值型属性刻画的实例来说,这个距离通常指欧氏距离。现在我们对前面的“bank data”作聚类分析,使用最常见的K 均值(K-means)算法。下面我们简单描述一下K 均值聚类的步骤。
K 均值算法首先随机的指定K 个簇中心。然后:1)将每个实例分配到距它最近的簇中心,得到K 个簇;2)计分别
您可能关注的文档
- 工业建筑任务书.doc
- 工程材料在线作业-F.doc
- 工程水文课后习题解.doc
- 工业固体催化剂及发展.doc
- 工业冷水机原理图及机组特点.doc
- 工程招标代理资料存档质量控制流程制度.doc
- 工期保证措施2.doc
- 工程热力学9理想气体混合物与湿空气.doc
- 差阻式应力计.doc
- 川西北生态脆弱地区经济发展模式.doc
- 2025年卫生防疫科疫苗接种与疫情防控模拟考试答案解析.docx
- 2025年儿科护士婴幼儿生活护理技能考核试题及答案解析.docx
- 2025年内科心血管病常见并发症防治考试试题及答案解析.docx
- 2025年社区卫生管理与服务试题及答案解析.docx
- 2025年精神科医师精神科药物治疗与心理治疗模拟考试试题及答案解析.docx
- 2025年精神科患者心理疏导技能考核模拟试题卷答案及解析.docx
- 2025年康复治疗师康复训练方案设计与执行能力评估试题及答案解析.docx
- 2025年口腔科口腔拔牙与种植手术操作规范考核试题及答案解析.docx
- 2025年药房常见药品使用与剂量管理模拟考试试题及答案解析.docx
- 2025年床边治疗师床边救治操作规范考核试题及答案解析.docx
文档评论(0)