- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Weka的安装配置及使用
WEKA的安装配置及使用
大纲
1.安装WEKA
2.数据格式
3.数据预处理
4.关联规则
5.分类与回归
6.聚类
7.WEKA连接mysql数据库
8.在myeclipse中使用WEKA
简介
定位
开源的数据挖掘平台
集合了大量能承担数据挖掘任务的机器学习算法
项目主页
http://www.cs.waikato.ac.nz/ml/weka/
书籍
《数据挖掘:实用机器学习技术》
简介
数据挖掘的6种任务
预处理(Preprocess)
关联规则(Associate)
分类(Classify)
回归(Regress)
聚类(Cluster)
可视化(Visualize)
1.安装Weka
(1).Weka和Myeclipse都需要Java运行环境(JRE)的支持,建议先安装JRE ,同时配置好Java环境变量
(2).根据操作系统位数下载合适的Weka安装文件
——32位Windows:Windows X86
——64位Windows:Windows X64
(3).添加Weka环境变量WEKA_HOME
(4).data子目录预存了数据文件
2.数据格式
Weka数据的逻辑形式:二维表
Weka的数据来源
(1)ARFF文件
(2)关系数据库:mysql,sql server,oracle等
2.数据格式(续)
“行”的术语
“列”的术语
数据库理论
记录
字段
统计学
样本
变量
Weka
实例
属性
2.数据格式(续)
Weka的数据类型
numeric 数值型
nominal 分类型(枚举型)
string 字符串型
Date 时间型
3.数据准备
CSV文件
为了解析更多的二维数据,WEKA提 供 了对CSV文件的 支持。CSV文件被很多“数据处理”软件支持,如EXCEL,MATLAB。
CSV转换为ARFF
图形界面方法:
通过Explorer界面的“Open file”按钮打开CSV文件,通过“Save”按钮保存为ARFF文件,格式转换操作会由Weka在后台自动完成。
2.数据格式(续)
2.数据格式(续)
Explorer界面
(1).切换不同数据挖掘任务的面板
(2).数据源操作面板
(3).数据过滤(预处理)面板
(4).当前关系面板
(5).当前属性信息面板
(6).属性选择面板
(7).当前属性可视化面板
3.数据预处理
删除无意义的属性
属性的离散化
(1)整型的离散化:直接修改ARFF文件的属性定义
(2)浮点型的离散化:通过图形界面工具Explorer→Preprocess→Filter→Choose→Weka.filters.unsupervised.attribute.Discretize
实例:
bank-data.arffbank-data-final.arff
4.关联规则(购物篮分析)
对于一条关联规则L-R,我们常用支持度(Support)和置信度(Confidence)来衡量它的重要性。规则的支持度是用来估计在一个购物篮中同时观察到L和R的概率P(L,R),而规则的置信度是估计购物栏中出现了L时也出会现R的条件概率P(R|L)。关联规则的目标一般是产生支持度和置信度都较高的规则。 有几个类似的度量代替置信度来衡量规则的关联程度,它们分别是 Lift: P(L,R)/(P(L)P(R)) Lift=1时表示L和R独立。这个数越大,越表明L和R存在在一个购物篮中不是偶然现象。 Leverage:P(L,R)-P(L)P(R) 它和Lift的含义差不多。Leverage=0时L和R独立,Leverage越大L和R的关系越密切。 Conviction:P(L)P(!R)/P(L,!R) (!R表示R没有发生) Conviction也是用来衡量L和R的独立性。从它和lift的关系(对R取反,代入Lift公式后求倒数)可以看出,我们也希望这个值越大越好。
4.关联规则(续)
例子:用Apriori算法(weka.associations.Apriori)寻找 bank-data-final.arff(600个实例)中的关联规则
目标:
挖掘出支持度在0.1到1之间,lift值超过1.5且lift值排在前100位的关联规则。
操作:
在Preprocess选项卡中打开bank-data-final.arff,切换至Associate选项卡,点击choose按钮后面的文本框,lowerBoundMinSupport设为0.1,upperBoundMinSupport设为1,metricType设为 lift,minMetric设为1.5,numRules设为100,其他选项保持默认
5.分类与回归
分类(Classifica
文档评论(0)