- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘-WAKA
实验报告
一、WEKA软件简介
在我所从事的证券行业中,存在着海量的信息和数据,但是这些数据 日常知识发挥了一小部分的作用,其包含了大量的隐性的信息并不为所用, 但是却可以为一些公司的决策和对客户的服务提供不小的价值。因此 ,我们
可以通过一些数据采集、数据挖掘来获得潜在的有价值的信息。
数据挖掘就是通过分析存在于数据库里的数据来解决问题。在数据挖掘中计 算机以电子化的形式存储数据,并且能自动的查询数据,通过关联规则、分类于 回归、聚类分析等算法对数据进行一系列的处理,寻找和描述数据里的结构模式, 进而挖掘出潜在的有用的信息。数据挖掘就是通过分析存在于数据库里的数据来 解决问题。WEKA的出现让我们把数据挖掘无需编程即可轻松搞定。
WEKA是由新西兰怀卡托大学开发的开源项目,全名是怀卡托智能分析 环境(Waikato Environment for Knowledge Analysis )。WEKA 是由 JAVA 编写的,它的源代码可通过 http://www.cs.waikato.ac.nz/ml/WEKA 得到, 并且限制在GBU通用公众证书的条件下发布,可以运行在所有的操作系统 中。是一款免费的,非商业化的机器学习以及数据挖掘软件
WEKA作为一个公开的数据挖掘工作平台,集合了大量能承担数据挖掘 任务的机器学习算法,包括对数据进行预处理,分类,回归、聚类、关联 规则以及在新的交互式界面上的可视化。如果想自己实现数据挖掘算法的 话,可以看一看WEKA的接口文档。在WEKA中集成自己的算法甚至借鉴它 的方法自己实现可视化工具并不是件很困难的事情。
安装WEKA也十分简单,首相要下载安装JDK环境,JDK在这个页面可 以找到它的下载 /javase/downloads/index.jsp。点击 JDK 6之后的Download按钮,转到下载页面。选择Accepct,过一会儿页面 会刷新。我们需要的是这个 Windows Offline Installation, Multi-language jdk-6-windows-i586.exe 53.16 MB,点击它下载。也可以右键点击它上面 的链接,在Flashget等工具中下载。安装它和一般软件没什么区别。不过中间 会中断一下提示你安装JRE,一并装上即可。之后就是安装WEKA软件,这个 在网上很多地方都有。同样简单地按默认方法安装后即可使用。
点击启动运行WEKA软件后,我门发现WEKA存储数据的格式是ARFF
(Attribute-Relation File Format )文件,这是一种 ASCII 文本文件。
我们如图1通过软件的Tools菜单进入ArffViewer可以在安装目录下查看
软件自带的几个ARFF文件。 如图2,打开文件后选择data自目录下的任意一张表,我们都可以看到如图3 所示的二维表格存储在如下的ARFF文件中。这也就是WEKA自带的
Qrl + SCtrltNEjcprnmtmwthMewerBayes net editorKci tladrtF 1 :■
Qrl + S
CtrltN
Ejcprnmtmw
th
Mewer
Bayes net editor
Kci tladrtF 1 :■
图1
% cortact-l
专cpu
专 cpu.with.ven dor
中 iris
专 labcr
segment-challenge
专 5Bqment-test
* soybean
weafzher
■weather.nominal
I_ Invoice ajjti
“contact-lenses.arff ”文件。这里我们要介绍一下WEKA中的术语。表格 里的一个横行称作一个实例(Instance),相当于统计学中的一个样本,或者数 据库中的一条记录。竖行称作一个属性(Attrbute),相当于统计学中的一个变 量,或者数据库中的一个字段。这样一个表格,或者叫数据集,在WEKA看来, 呈现了属性之间的一种关系(Relation)。图1中一共有22个实例,5个属性, 关系名称为 “contact-lenses ”。
除了 ARFF格式,WEKA还支持另外一种常见格式,CSV格式。CSV同样是 一种二进制保存的文本格式,我们可以在WEKA中直接打开CSV格式的文件, 并保存为ARFF格式。这样就给我提供了把常见的数据格式转换为ARFF格式的 方法,如对于Excel文件,我们 可以通过把每张表保存为CSV格式,进而保存 为ARFF格式,与此同时,我们可以利用filter对数据进行相应的预处理。而对 于Matlab格式的数据,我们可以通过命令csvwrite把数据转化成CSV格式的文 件,进而转化为ARFF格式文件。对于海
您可能关注的文档
最近下载
- 液体伤口敷料产品技术要求标准2023版.docx VIP
- 《水利工程外观质量评定规程DB34∕T 4010-2021》知识培训.pptx VIP
- DLT741-2023年架空送电线路运行规程.docx
- 并网光伏电站项目工程现场电气二次施工方案.doc
- 英语新课标背景下:非纸笔测试在小学英语期末评价中的实践研究.pdf VIP
- 股市实战绝技汇总篇(精华).doc VIP
- 历年行情的十大牛股.doc VIP
- 安徽省六校联考暨安徽六校教育研究会2026届高三入学素质检测-物理试卷答案.docx VIP
- 基于Ansys CFX的风扇叶片双向流固耦合分析.docx VIP
- (高清版)DB1307∕T 334-2020 蛋鸡无抗养殖技术规范.pdf VIP
文档评论(0)