Weka_數据挖掘软件使用指南.docxVIP

下载本文档

11
0
约 7页
2016-12-07 发布于重庆
举报
版权申诉

Weka_數据挖掘软件使用指南.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

Weka_數据挖掘软件使用指南

Weka 数据挖掘软件使用指南Weka简介该软件是WEKA的全名是怀卡托智能分析环境（Waikato Environment for Knowledge Analysis），它的源代码可通过http://www.cs.waikato.ac.nz/ml/wekahttp://www.cs.waikato.ac.nz/ml/weka得到。Weka作为一个公开的数据挖掘工作平台，集合了大量能承担数据挖掘任务的机器学习算法，包括对数据进行预处理，分类，回归、聚类、关联规则以及在新的交互式界面上的可视化。如果想自己实现数据挖掘算法的话，可以看一看Weka的接口文档。在Weka中集成自己的算法甚至借鉴它的方法自己实现可视化工具并不是件很困难的事情。Weka启动打开Weka主界面后会出现一个对话框，如图：主要使用右方的四个模块，说明如下：Explorer：使用Weka探索数据的环境,包括获取关联项，分类预测，聚簇等；Experimenter：运行算法试验、管理算法方案之间的统计检验的环境；KnowledgeFlow：这个环境本质上和Explorer所支持的功能是一样的，但是它有一个可以拖放的界面。它有一个优势，就是支持增量学习；SimpleCLI：提供了一个简单的命令行界面，从而可以在没有自带命令行的操作系统中直接执行Weka命令（某些情况下使用命令行功能更好一些）。3．主要操作说明点击进入Explorer模块开始数据探索环境。3.1主界面进入Explorer模式后的主界面如下：3.1.1标签栏主界面最左上角（标题栏下方）的是标签栏，分为五个部分，功能依次是：Preprocess(数据预处理)：选择和修改要处理的数据；Classify(分类)：训练和测试关于分类或回归的学习方案；Cluster(聚类)：从数据中学习聚类；Associate(关联)：从数据中学习关联规则；Select attributes(属性选择)：选择数据中最相关的属性；Visualize(可视化)：查看数据的交互式二维图像。3.1.2载入、编辑数据标签栏下方是载入数据栏，功能如下：Open file：打开一个对话框，允许你浏览本地文件系统上的数据文件（.dat）；Open URL：请求一个存有数据的URL 地址；Open DB：从数据库中读取数据；Generate：从一些数据生成器中生成人造数据。3.1.3其他界面说明接下来的主界面中依次是Filter（筛选器），Currtent relation（当前关系）、Attributes（属性信息）、Selected attribute（选中的属性信息）以及Class（类信息），分别介绍如下：Filter在预处理阶段，可以定义筛选器来以各种方式对数据进行变换。Filter 一栏用于对各种筛选器进行必要设置。Filter一栏的左边是一个Choose 按钮。点击这个按钮就可选择Weka中的某个筛选器。用鼠标左键点击这个choose左边的显示框，将出现GenericObjectEditor对话框。用鼠标右键点击将出现一个菜单，你可从中选择，要么在GenericObjectEditor对话框中显示相关属性，要么将当前的设置字符复制到剪贴板。Currtent relation显示当前打开的数据文件的基本信息：Relation（关系名），Instances（实例数）以及Attributes（属性个数）。Attributes显示数据文件中的属性信息，并且包含四个操作按键：All：所有选择框都被勾选；None：所有选择框被取消；Invert：已勾选的选择框都被取消，反之亦然；Pattern：让用户基于Perl 5正则表达式来选择属性。例如，用*_id选择所有名称以_id结束的属性。底下显示的就是数据文件包含的属性，可以进行勾选等操作。特别地，当数据预处理是不要某个属性时，将其各选，点击列表正下方的Remove按键即可删除这一属性:Selected attribute显示勾选的属性的基本信息。Class显示属性中数据元组的直方图。点击Visualize all按键可以查看所有属性中元组的直方图。3.2实现基本数据挖掘功能：3.2.1 Associate（关联规则）注意：目前，Weka的关联规则分析功能仅能用来作示范，不适合用来挖掘大型数据集。各部分功能说明如下：Associator切换到Associate选项卡。单击choose按键，可以选择关联规则算法，系统默认关联规则分析算法是Apriori算法。选择关联规则算法后，点Choose右边的文本框修改默认的参数，弹出的窗口中点More可以看到各参数的说明。一下简列几项：upperBoundMinSupport：最小支持度上限removeAllMissingCols ：移除具有遗失值的列lower