WEKA数据挖掘工具操作实验.ppt

  1. 1、本文档共300页,可阅读全部内容。
  2. 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,可选择认领,认领后既往收益都归您。
  3. 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细先通过免费阅读内容等途径辨别内容交易风险。如存在严重挂羊头卖狗肉之情形,可联系本站下载客服投诉处理。
  4. 文档侵权举报电话:400-050-0739(电话支持时间:9:00-19:00)。
WEKA数据挖掘工具操作实验

数据挖掘工具--WEKA教程 WEKA简介…….2 数据集……..11 数据准备…..24 数据预处理…36 分类……………63 聚类………….184 关联规则……225 选择属性……244 数据可视化…253 知识流界面…275 1、WEKA简介 WEKA的全名是怀卡托智能分析环境 (Waikato Environment for Knowledge Analysis) weka也是新西兰的一种鸟名 是新西兰怀卡托大学WEKA小组用Java开发的机器学习/数据挖掘开源软件。其源代码获取 http://www.cs.waikato.ac.nz/ml/weka/ /weka/weka-3-6-6jre.exe 2005年8月,在第11届ACM SIGKDD国际会议上,怀卡托大学的WEKA小组荣获了数据挖掘和知识探索领域的最高服务奖, WEKA系统得到了广泛的认可,被誉为数据挖掘和机器学习历史上的里程碑,是现今最完备的数据挖掘工具之一。 WEKA的每月下载次数已超过万次。 WEKA软件 主要特点 它是集数据预处理、学习算法(分类、回归、聚类、关联分析)和评估方法等为一体的综合性数据挖掘工具。 具有交互式可视化界面。 提供算法学习比较环境 通过其接口,可实现自己的数据挖掘算法 把“Explorer”界面分成8个区域 区域1的几个选项卡是用来切换不同的挖掘任务面板。 Preprocess(数据预处理):选择和修改要处理的数据。 Classify(分类):训练和测试分类或回归模型。 Cluster(聚类):从数据中聚类。 Associate(关联分析):从数据中学习关联规则。 Select Attributes(选择属性):选择数据中最相关的属性。 Visualize(可视化) :查看数据的二维散布图。 区域2是一些常用按钮。包括打开、编辑、保存数据及数据转换等功能。例如,我们可以把文件“bank-data.csv”另存为“bank-data.arff”。 区域3中可以选择(Choose)某个筛选器(Filter),以实现筛选数据或者对数据进行某种变换。数据预处理主要就利用它来实现。 区域4展示了数据集的关系名、属性数和实例数等基本情况。 区域5中列出了数据集的所有属性。 勾选一些属性并“Remove”就可以删除它们,删除后还可以利用区域2的“Undo”按钮找回。 区域5上方的一排按钮是用来实现快速勾选的。 区域6中显示在区域5中选中的当前某个属性的摘要。 摘要包括属性名(Name)、属性类型(Type)、缺失值(Missing)数及比例、不同值(Distinct )数、唯一值(Unique)数及比例 对于数值属性和标称属性,摘要的方式是不一样的。图中显示的是对数值属性“income”的摘要。 数值属性显示最小值(Minimum)、最大值(Maximum) 、均值(Mean)和标准差(StdDev) 标称属性显示每个不同值的计数 区域7是区域5中选中属性的直方图。 若数据集的最后一个属性(这是分类或回归任务的默认目标变量)是类标变量(例如“pep” ),直方图中的每个长方形就会按照该变量的比例分成不同颜色的段。 要想换个分段的依据,在区域7上方的下拉框中选个不同的分类属性就可以了。 下拉框里选上“No Class”或者一个数值属性会变成黑白的直方图。 区域8窗口的底部区域,包括状态栏、log按钮和Weka鸟。 状态栏(Status)显示一些信息让你知道正在做什么。例如,如果 Explorer 正忙于装载一个文件,状态栏就会有通知。 在状态栏中的任意位置右击鼠标将会出现一个小菜单。这个菜单给了你两个选项: Memory Information--显示WEKA可用的内存量。 Run garbage collector--强制运行Java垃圾回收器,搜索不再需要的内存空间并将之释放,从而可为新任务分配更多的内存。 Log按钮可以查看以weka操作日志 。 右边的weka鸟在动的话,说明WEKA正在执行挖掘任务。 2、WEKA数据集 WEKA所处理的数据集是一个.arff文件的二维表 表格里的一个横行称作一个实例(Instance),相当于统计学中的一个样本,或者数据库中的一条记录。 竖行称作一个属性(Attribute),相当于统计学中的一个变量,或者数据库中的一个字段。 这样一个表格,或者叫数据集,在WEKA看来,呈现了属性之间的一种关系(Relation)。 上图中一共有14个实例,5个属性,关系名称为“weather”。 WEKA存储数据的格式是ARFF(Attribute-Relation File Format)文件,这是一种ASCII文本文件。 上图所示的二维表格存储在如下的ARFF文件中。这也就

文档评论(0)

整理王
该用户很懒,什么也没介绍

相关文档

相关课程推荐