基于Weka关联规则挖掘算法概述.docVIP

下载本文档

75
0
约2.75千字
约 7页
2018-08-28 发布于福建
举报
版权申诉

基于Weka关联规则挖掘算法概述.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于Weka关联规则挖掘算法概述

基于Weka关联规则挖掘算法概述　　[摘要]随着信息技术的发展，我们获得越来越多庞大而复杂的数据，如何从众多数据中提取出有用的信息，数据挖掘为我们提供了思路。关联规则挖掘是数据挖掘中的一个重要部分。Weka是一个开放的数据挖掘平台，它提供了几种关联规则挖掘算法，本文介绍了其中的三种算法：Apriori算法，FP-Growth算法，PredictiveApriori算法。　　[关键词]关联规则挖掘； Apriori算法；FP-Growth算法；PredictiveApriori算法；　　中图分类号：S155 文献标识码：A 文章编号：1009-914X（2018）02-0238-01 　　0 前言　　关联规则的概念是在1993年由Agrawal等人提出的，最初的提出动机是针对购物篮分析问题的。“尿布与啤酒”的故事就是一个经典的例子。关联分析的目的就是找出数据库中隐藏的关联网。关联规则挖掘技术已被广泛应用于金融，电子商务，医疗等领域。并且，对于经典的关联规则挖掘算法，人们也不断将其进行改进或与其他算法结合，以提高算法效率。　　1 Weka简介　　Weka全称是Waikato Environment for Knowledge Analysis，即怀卡托智能分析环境。它是一款免费的、非商业化的、基于Java环境下开源的机器学习以及数据挖掘平台。 Weka是一个公开的数据挖掘工作平台，汇集了大量能承担数据挖掘任务的机器学习算法。此外，还可以对算法进行性能评测。若用户想要实现自己的数据挖掘算法，可以参考weka的接口文档，将自己设计的算法集成于weka中。　　2 关联规则　　2.1 关联规则　　关联规则是形如的蕴涵式，X和Y分别称为关联规则的先导和后继。其中，关联规则，存在支持度和信任度。给定一个交易数据库，其中，假设是m个不同项的集合，每个事务T是I的非空子集，T有一个唯一的标识符TID。假设X，Y是I的任意非空子集，关联规则在D中的支持度是D中事务同时包含X、Y的百分比，即support（）=P（XY）；置信度是D中事务已经包含X的情况下，包含Y的百分比，若X的支持度是support（X），则规则的置信度为：support（）/support（X），即confidence（XY）=P（Y|X）。　　2.2 关联规则挖掘　　关联规则的挖掘问题，也就是发现所有同时满足最小支持度与最小置信度的强关联规则。此过程分为两步：　　第一步：在数据库中识别所有满足给定的最小支持度的频繁项集；　　第二步：由频繁项集产生满足给定的最小置信度的关联规则。　　3 关联规则挖掘算法　　3.1 Apriori算法　　Apriori算法是挖掘布尔关联规则频繁项集的算法，它是一种经典的关联规则挖掘算法，通过对数据库进行多次扫描发现所有频繁项目集，每一次扫描过程只考虑具有同一长度的所有项目。实际应用中，为了减少生成候选项目集的计算量，Apriori算法利用了以下性质：（1）一个频繁项集的任意非空子集必是频繁项集。　　（2）k项数据项集是频繁项集的必要条件是它的所有k-1项子集都是频繁项集。　　Apriori算法将发现关联规则的过程分为两个步骤：　　第一步：通过迭代，检索出事务数据库中的所有满足设定阈值的频繁项集。Apriori算法通过连接步和剪枝步两个步骤来找出所有的频繁项集。　　第二步：利用频繁项集构造出满足最小置信度的规则。　　（1）对于每个频繁项集L，产生其所有非空真子集；　　（2）对于每个非空真子集s，如果support_count（l）/support_count（s）=min_conf，则输出s-（-s），其中，min_conf是最小置信度阈值。　　其中，识别出所有频繁项集是该算法的核心，占整个计算量的大部分。　　3.2 FP-growth算法　　FP-growth算法又称为FP-增长算法，是它是通过FP-Tree数据结构对原始数据进行压缩，只需要对数据库进行两次扫描。因此，FP-growth算法要比Apriori算法效率高。　　FP-growth算法发现频繁项集的基本过程如下：　　第一步：构建FP-Tree。　　（1）扫描整个数据集，统计各元素项出现次数，得到频繁1-项集，然后按照频数递减排序，移除频数不满足最小支持度的元素项，得到频繁项表F，按照F重新调整事务数据库。　　（2）第二次遍历数据集，创建FP树。新建一个根结点，标记为null，把每个事务中的数据项按照调整后的数据库次序依次插入到以null为根结点的树中，同时在每个结点处记录该结点出现的支持度。　　第二步：从FP-Tree中挖掘频繁项集。　　（1）从FP-Tree