Weka的安装配置及使用.pptxVIP

下载本文档

18
0
约4.11千字
约 21页
2018-01-13 发布于河南
举报
版权申诉

Weka的安装配置及使用.pptx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

Weka的安装配置及使用

WEKA的安装配置及使用大纲 1.安装WEKA 2.数据格式 3.数据预处理 4.关联规则 5.分类与回归 6.聚类 7.WEKA连接mysql数据库 8.在myeclipse中使用WEKA 简介定位开源的数据挖掘平台集合了大量能承担数据挖掘任务的机器学习算法项目主页 http://www.cs.waikato.ac.nz/ml/weka/ 书籍《数据挖掘:实用机器学习技术》简介数据挖掘的6种任务预处理(Preprocess) 关联规则(Associate) 分类(Classify) 回归(Regress) 聚类(Cluster) 可视化(Visualize) 1.安装Weka (1).Weka和Myeclipse都需要Java运行环境（JRE）的支持，建议先安装JRE ，同时配置好Java环境变量 (2).根据操作系统位数下载合适的Weka安装文件 ——32位Windows：Windows X86 ——64位Windows：Windows X64 (3).添加Weka环境变量WEKA_HOME (4).data子目录预存了数据文件 2.数据格式 Weka数据的逻辑形式：二维表 Weka的数据来源（1）ARFF文件（2）关系数据库：mysql，sql server，oracle等 2.数据格式(续) “行”的术语 “列”的术语数据库理论记录字段统计学样本变量 Weka 实例属性 2.数据格式(续) Weka的数据类型 numeric 数值型 nominal 分类型（枚举型） string 字符串型 Date 时间型 3.数据准备 CSV文件为了解析更多的二维数据，WEKA提供了对CSV文件的支持。CSV文件被很多“数据处理”软件支持，如EXCEL，MATLAB。 CSV转换为ARFF 图形界面方法：通过Explorer界面的“Open file”按钮打开CSV文件，通过“Save”按钮保存为ARFF文件，格式转换操作会由Weka在后台自动完成。 2.数据格式(续) 2.数据格式(续) Explorer界面 (1).切换不同数据挖掘任务的面板 (2).数据源操作面板 (3).数据过滤（预处理）面板 (4).当前关系面板 (5).当前属性信息面板 (6).属性选择面板 (7).当前属性可视化面板 3.数据预处理删除无意义的属性属性的离散化 (1)整型的离散化：直接修改ARFF文件的属性定义 (2)浮点型的离散化：通过图形界面工具Explorer→Preprocess→Filter→Choose→Weka.filters.unsupervised.attribute.Discretize 实例： bank-data.arffbank-data-final.arff 4.关联规则(购物篮分析) 对于一条关联规则L-R，我们常用支持度（Support）和置信度（Confidence）来衡量它的重要性。规则的支持度是用来估计在一个购物篮中同时观察到L和R的概率P(L,R)，而规则的置信度是估计购物栏中出现了L时也出会现R的条件概率P(R|L)。关联规则的目标一般是产生支持度和置信度都较高的规则。有几个类似的度量代替置信度来衡量规则的关联程度，它们分别是 Lift： P(L,R)/(P(L)P(R)) Lift=1时表示L和R独立。这个数越大，越表明L和R存在在一个购物篮中不是偶然现象。 Leverage：P(L,R)-P(L)P(R) 它和Lift的含义差不多。Leverage=0时L和R独立，Leverage越大L和R的关系越密切。 Conviction：P(L)P(!R)/P(L,!R) （!R表示R没有发生） Conviction也是用来衡量L和R的独立性。从它和lift的关系（对R取反，代入Lift公式后求倒数）可以看出，我们也希望这个值越大越好。 4.关联规则(续) 例子：用Apriori算法(weka.associations.Apriori)寻找 bank-data-final.arff(600个实例)中的关联规则目标：挖掘出支持度在0.1到1之间，lift值超过1.5且lift值排在前100位的关联规则。操作：在Preprocess选项卡中打开bank-data-final.arff，切换至Associate选项卡，点击choose按钮后面的文本框，lowerBoundMinSupport设为0.1，upperBoundMinSupport设为1，metricType设为 lift，minMetric设为1.5，numRules设为100，其他选项保持默认 5.分类与回归分类(Classifica