Weka的安装配置及使用.pptxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Weka的安装配置及使用

WEKA的安装配置及使用 大纲 1.安装WEKA 2.数据格式 3.数据预处理 4.关联规则 5.分类与回归 6.聚类 7.WEKA连接mysql数据库 8.在myeclipse中使用WEKA 简介 定位 开源的数据挖掘平台 集合了大量能承担数据挖掘任务的机器学习算法 项目主页 http://www.cs.waikato.ac.nz/ml/weka/ 书籍 《数据挖掘:实用机器学习技术》 简介 数据挖掘的6种任务 预处理(Preprocess) 关联规则(Associate) 分类(Classify) 回归(Regress) 聚类(Cluster) 可视化(Visualize) 1.安装Weka (1).Weka和Myeclipse都需要Java运行环境(JRE)的支持,建议先安装JRE ,同时配置好Java环境变量 (2).根据操作系统位数下载合适的Weka安装文件 ——32位Windows:Windows X86 ——64位Windows:Windows X64 (3).添加Weka环境变量WEKA_HOME (4).data子目录预存了数据文件 2.数据格式 Weka数据的逻辑形式:二维表 Weka的数据来源 (1)ARFF文件 (2)关系数据库:mysql,sql server,oracle等 2.数据格式(续) “行”的术语 “列”的术语 数据库理论 记录 字段 统计学 样本 变量 Weka 实例 属性 2.数据格式(续) Weka的数据类型 numeric 数值型 nominal 分类型(枚举型) string 字符串型 Date 时间型 3.数据准备 CSV文件 为了解析更多的二维数据,WEKA提 供 了对CSV文件的 支持。CSV文件被很多“数据处理”软件支持,如EXCEL,MATLAB。 CSV转换为ARFF 图形界面方法: 通过Explorer界面的“Open file”按钮打开CSV文件,通过“Save”按钮保存为ARFF文件,格式转换操作会由Weka在后台自动完成。 2.数据格式(续) 2.数据格式(续) Explorer界面 (1).切换不同数据挖掘任务的面板 (2).数据源操作面板 (3).数据过滤(预处理)面板 (4).当前关系面板 (5).当前属性信息面板 (6).属性选择面板 (7).当前属性可视化面板 3.数据预处理 删除无意义的属性 属性的离散化 (1)整型的离散化:直接修改ARFF文件的属性定义 (2)浮点型的离散化:通过图形界面工具Explorer→Preprocess→Filter→Choose→Weka.filters.unsupervised.attribute.Discretize 实例: bank-data.arffbank-data-final.arff 4.关联规则(购物篮分析) 对于一条关联规则L-R,我们常用支持度(Support)和置信度(Confidence)来衡量它的重要性。规则的支持度是用来估计在一个购物篮中同时观察到L和R的概率P(L,R),而规则的置信度是估计购物栏中出现了L时也出会现R的条件概率P(R|L)。关联规则的目标一般是产生支持度和置信度都较高的规则。 有几个类似的度量代替置信度来衡量规则的关联程度,它们分别是 Lift: P(L,R)/(P(L)P(R)) Lift=1时表示L和R独立。这个数越大,越表明L和R存在在一个购物篮中不是偶然现象。 Leverage:P(L,R)-P(L)P(R) 它和Lift的含义差不多。Leverage=0时L和R独立,Leverage越大L和R的关系越密切。 Conviction:P(L)P(!R)/P(L,!R) (!R表示R没有发生) Conviction也是用来衡量L和R的独立性。从它和lift的关系(对R取反,代入Lift公式后求倒数)可以看出,我们也希望这个值越大越好。 4.关联规则(续) 例子:用Apriori算法(weka.associations.Apriori)寻找 bank-data-final.arff(600个实例)中的关联规则 目标: 挖掘出支持度在0.1到1之间,lift值超过1.5且lift值排在前100位的关联规则。 操作: 在Preprocess选项卡中打开bank-data-final.arff,切换至Associate选项卡,点击choose按钮后面的文本框,lowerBoundMinSupport设为0.1,upperBoundMinSupport设为1,metricType设为 lift,minMetric设为1.5,numRules设为100,其他选项保持默认 5.分类与回归 分类(Classifica

文档评论(0)

xcs88858 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:8130065136000003

1亿VIP精品文档

相关文档