- 1、本文档共14页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Wek数据挖掘软件使用指南
Weka 数据挖掘软件使用指南
Weka简介
该软件是WEKA的全名是怀卡托智能分析环境(Waikato Environment for Knowledge Analysis),它的源代码可通过 HYPERLINK http://www.cs.waikato.ac.nz/ml/weka http://www.cs.waikato.ac.nz/ml/weka得到。Weka作为一个公开的数据挖掘工作平台,集合了大量能承担数据挖掘任务的机器学习算法,包括对数据进行预处理,分类,回归、聚类、关联规则以及在新的交互式界面上的可视化。如果想自己实现数据挖掘算法的话,可以看一看Weka的接口文档。在Weka中集成自己的算法甚至借鉴它的方法自己实现可视化工具并不是件很困难的事情。
Weka启动
打开Weka主界面后会出现一个对话框,如图:
主要使用右方的四个模块,说明如下:
?? Explorer 使用 Weka 探索数据的环境,包括获取关联项,分类预测,聚簇等;(本文主要总结这个部分的使用)
?? Experimenter 运行算法试验、管理算法方案之间的统计检验的环境;
?? KnowledgeFlow 这个环境本质上和 Explorer所支持的功能是一样的,但是它有一个可以拖放的界面。它有一个优势,就是支持增量学习;
?? SimpleCLI 提供了一个简单的命令行界面,从而可以在没有自带命令行的操作系统中直接执行 Weka命令;(某些情况下使用命令行功能更好一些)
3.主要操作说明
点击进入Explorer模块开始数据探索环境:
3.1主界面
进入Explorer模式后的主界面如下:
3.1.1标签栏
主界面最左上角(标题栏下方)的是标签栏,分为五个部分,功能依次是:
1. Preprocess. 选择和修改要处理的数据;
2. Classify. 训练和测试关于分类或回归的学习方案;
3. Cluster. 从数据中学习聚类;
4. Associate. 从数据中学习关联规则;
5. Select attributes. 选择数据中最相关的属性;
6. Visualize. 查看数据的交互式二维图像。
3.1.2载入、编辑数据
标签栏下方是载入数据栏,功能如下:
1. Open file.打开一个对话框,允许你浏览本地文件系统上的数据文件(.dat);
2. Open URL.请求一个存有数据的 URL 地址;
3. Open DB.从数据库中读取数据 ;
4. Generate. 从一些数据生成器中生成人造数据。
3.1.3其他界面说明
接下来的主界面中依次是Filter(筛选器),Currtent relation(当前关系)、Attributes(属性信息)、Selected attribute(选中的属性信息)以及Class(类信息),分别介绍如下:
Filter
在预处理阶段,可以定义筛选器来以各种方式对数据进行变换。Filter 一栏用于对各种筛选器进行必要设置。Filter 一栏的左边是一个Choose 按钮。点击这个按钮就可选择 Weka 中的某个筛选器。用鼠标左键点击这个choose左边的显示框,将出现GenericObjectEditor对话框。用鼠标右键点击将出现一个菜单,你可从中选择,要么在 GenericObjectEditor 对话框中显示相关属性,要么将当前的设置字符复制到剪贴板。
Currtent relation
显示当前打开的数据文件的基本信息:Relation(关系名),Instances(实例数)以及Attributes(属性个数)。
Attributes
显示数据文件中的属性信息,并且包含四个操作按键:
1. All. 所有选择框都被勾选;
2. None. 所有选择框被取消;
3. Invert. 已勾选的选择框都被取消,反之亦然;
4. Pattern. 让用户基于 Perl 5 正则表达式来选择属性。例如,用 *_id 选择所有名称以 _id 结束的属性。
底下显示的就是数据文件包含的属性,可以进行勾选等操作。特别地,当数据预处理是不要某个属性时,将其各选,点击列表正下方的Remove按键即可删除这一属性:
Selected attribute
显示勾选的属性的基本信息。
Class
显示属性中数据元组的直方图。点击Visualize all按键可以查看所有属性中元组的直方图。
3.2实现基本数据挖掘功能:
3.2.1Associate(关联规则)
注意:目前,Weka的关联规则分析功能仅能用来作示范,不适合用来挖掘大型数据集。
各部分功能说明如下:
Associator
首先切换到Associate选项卡。默认关联规则分析是用Apriori算法
您可能关注的文档
- subaysurf全攻略.doc
- strts零配置Action路径到Result页面路径自动映射.doc
- STT机附墙顶升施工组织设计方案方案.doc
- SuraceView介绍.doc
- sufr功能说明书.doc
- Surivalofthebiggest互联网巨头间战斗最大者生存.doc
- Surivin基因研究现状.doc
- SU快键大全.doc
- Surac数据库导入流程.doc
- sus版人教版初中数学常用概念公式和定理.doc
- 交通运输行业人才需求与培养模式对接交通行业人才选拔与任用研究.docx
- 交通运输行业节能减排法律法规与政策环境研究报告.docx
- 交通运输行业人才培养:2025年人才需求与素质教育培养报告.docx
- 交通运输行业人才培养:2025年人才需求与素质教育培养报告[001].docx
- 交通运输行业数字化转型与区域经济发展关系报告.docx
- 交通运输行业人才需求与培养模式对接港口物流发展报告.docx
- 交通运输行业智能交通管理系统人才需求与培养模式研究报告.docx
- 交通运输行业数字化转型对区域经济发展的推动作用报告.docx
- 产业园区2025年开发建设社会稳定风险评估与区域经济发展趋势报告.docx
- 交通运输行业安全管理法规与政策解读报告.docx
文档评论(0)