基于Weka关联规则挖掘算法概述.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于Weka关联规则挖掘算法概述

基于Weka关联规则挖掘算法概述   [摘 要]随着信息技术的发展,我们获得越来越多庞大而复杂的数据,如何从众多数据中提取出有用的信息,数据挖掘为我们提供了思路。关联规则挖掘是数据挖掘中的一个重要部分。Weka是一个开放的数据挖掘平台,它提供了几种关联规则挖掘算法,本文介绍了其中的三种算法:Apriori算法,FP-Growth算法,PredictiveApriori算法。   [关键词]关联规则挖掘; Apriori算法;FP-Growth算法;PredictiveApriori算法;   中图分类号:S155 文献标识码:A 文章编号:1009-914X(2018)02-0238-01   0 前言   关联规则的概念是在1993年由Agrawal等人提出的,最初的提出动机是针对购物篮分析问题的。“尿布与啤酒”的故事就是一个经典的例子。关联分析的目的就是找出数据库中隐藏的关联网。关联规则挖掘技术已被广泛应用于金融,电子商务,医疗等领域。并且,对于经典的关联规则挖掘算法,人们也不断将其进行改进或与其他算法结合,以提高算法效率。   1 Weka简介   Weka全称是Waikato Environment for Knowledge Analysis,即怀卡托智能分析环境。它是一款免费的、非商业化的、基于Java环境下开源的机器学习以及数据挖掘平台。 Weka是一个公开的数据挖掘工作平台,汇集了大量能承担数据挖掘任务的机器学习算法。此外,还可以对算法进行性能评测。若用户想要实现自己的数据挖掘算法,可以参考weka的接口文档,将自己设计的算法集成于weka中。   2 关联规则   2.1 关联规则   关联规则是形如的蕴涵式,X和Y分别称为关联规则的先导和后继。其中,关联规则,存在支持度和信任度。给定一个交易数据库,其中,假设是m个不同项的集合,每个事务T是I的非空子集,T有一个唯一的标识符TID。假设X,Y是I的任意非空子集,关联规则在D中的支持度是D中事务同时包含X、Y的百分比,即support()=P(XY);置信度是D中事务已经包含X的情况下,包含Y的百分比,若X的支持度是support(X),则规则的置信度为:support()/support(X),即confidence(XY)=P(Y|X)。   2.2 关联规则挖掘   关联规则的挖掘问题,也就是发现所有同时满足最小支持度与最小置信度的强关联规则。此过程分为两步:   第一步:在数据库中识别所有满足给定的最小支持度的频繁项集;   第二步:由频繁项集产生满足给定的最小置信度的关联规则。   3 关联规则挖掘算法   3.1 Apriori算法   Apriori算法是挖掘布尔关联规则频繁项集的算法,它是一种经典的关联规则挖掘算法,通过对数据库进行多次扫描发现所有频繁项目集,每一次扫描过程只考虑具有同一长度的所有项目。实际应用中,为了减少生成候选项目集的计算量,Apriori算法利用了以下性质:(1)一个频繁项集的任意非空子集必是频繁项集。   (2)k项数据项集是频繁项集的必要条件是它的所有k-1项子集都是频繁项集。   Apriori算法将发现关联规则的过程分为两个步骤:   第一步:通过迭代,检索出事务数据库中的所有满足设定阈值的频繁项集。Apriori算法通过连接步和剪枝步两个步骤来找出所有的频繁项集。   第二步:利用频繁项集构造出满足最小置信度的规则。   (1)对于每个频繁项集L,产生其所有非空真子集;   (2)对于每个非空真子集s,如果support_count(l)/support_count(s)=min_conf,则输出s-(-s),其中,min_conf是最小置信度阈值。   其中,识别出所有频繁项集是该算法的核心,占整个计算量的大部分。   3.2 FP-growth算法   FP-growth算法又称为FP-增长算法,是它是通过FP-Tree数据结构对原始数据进行压缩,只需要对数据库进行两次扫描。因此,FP-growth算法要比Apriori算法效率高。   FP-growth算法发现频繁项集的基本过程如下:   第一步:构建FP-Tree。   (1)扫描整个数据集,统计各元素项出现次数,得到频繁1-项集,然后按照频数递减排序,移除频数不满足最小支持度的元素项,得到频繁项表F,按照F重新调整事务数据库。   (2)第二次遍历数据集,创建FP树。新建一个根结点,标记为null,把每个事务中的数据项按照调整后的数据库次序依次插入到以null为根结点的树中,同时在每个结点处记录该结点出现的支持度。   第二步:从FP-Tree中挖掘频繁项集。   (1)从FP-Tree

文档评论(0)

erterye + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档