经典关联算法分析与Weka数据挖掘应用.docVIP

下载本文档

32
0
约7.34千字
约 15页
2018-09-28 发布于福建
举报
版权申诉

经典关联算法分析与Weka数据挖掘应用.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

经典关联算法分析与Weka数据挖掘应用

经典关联算法分析与Weka数据挖掘应用　　【摘要】Apriori算法是基于关联规则的经典挖掘算法，Weka是一个功能全面的机器学习和数据挖掘应用程序平台，本文在分析了Apriori算法的基本思想的基础上，针对实际例子，利用weka进行关联规则挖掘。　　【关键词】Apriori算法；关联规则；weka；数据挖掘　　　　 1.关联规则　　关联规则是数据中蕴含的一类重要规律，对关联规则进行挖掘是数据挖掘中的一项根本任务，甚至可以说是数据库和数据挖掘领域中所发明并被广泛研究的最为重要的模型[1]。简言之，关联规则挖掘是发现大量数据中项集之间的关系或相关联系[2]。这些关系往往是隐藏的，从大量商务数据中发些这些有趣的关系对交叉销售、配送服务、贱卖分析等是有价值的，这样也有利于商务决策的制定。　　关联规则挖掘的经典应用是购物篮数据分析，该过程通过发现顾客放入其购物篮中不同商品之间的联系，分析顾客的购买习惯，得出哪些商品频繁的被顾客同时购买，可以优化商品的分类陈列、改善商店的布局。以下是一个关联规则的简单例子：　　计算机=财务管理软件　　 [支持度=12%，置信度=60%] 　　这个规则表明12%的顾客同时购买电脑和财务管理软件，而在所有购买了电脑的顾客中有60%顾客也购买了财务管理软件。　　 2.关联规则相关概念　　项目集合：I={i1，i2，i3，…，im}。　　 k-项集：项集中项目个数为k的项集。　　事务集合：T=(t1，t2，t3，...，tm)。　　关联规则表达模型：　　 XàY，其中X∈I，Y∈I，且X∩Y=oslash;。　　这是一个蕴涵关系表达式，X称前件，Y称后件。　　 X覆盖ti：项集X是事务ti∈T的一个子集，则称ti包含X，也称X覆盖ti。　　支持计数：是T中包含X的事务的数目，记做X.count。　　支持度：规则XàY的支持度是T中包含X∪Y的事务的百分比，也可以看做是概率P(XUY)。支持度表示规则在事务集合T中使用的频繁程度。如果支持度的值太小，则表明这个规则可能是偶然发生的，研究它可能没什么价值。　　置信度：规则XàY的置信度是既包含了X又包含了Y的事务的数量占所有包含了X的事务的百分比，也可看做是条件概率P(Y|X)。置信度决定了规则的可预测度，如果一条规则的置信度太低，那么从X就很难可靠地推断出Y。研究置信度太低的规则在实际应用中也不会有太大价值。　　目标：关联规则挖掘就是要找出一个给定的事务T中所有满足用户指定的最小支持度(minsup)和最小置信度(mincof)的关联规则。如果一个关联规则满足最小支持度和最小置信度，那么就认为该关联规则是有意义的。　　频繁项目集：一个支持度高于minsup的项集。　　可信关联规则：置信度大于minconf的规则。　　 3.Apriori算法思想　　 Apriori算法是基于关联规则的经典挖掘算法，是一种最有影响的挖掘布尔关联规则频繁项集的算法。Apriori算法分两步进行：　　（1）生成所有频繁项目集。　　（2）从频繁项目集中生成所有可信关联规则。　　 3.1 频繁项目集生成部分的算法　　Apriori算法基于演绎原理（向下封闭属性）来高校的产生所有频繁项目集，其中向下封闭属性是指如果一个项集满足某个最小支持度要求，那么这个项集的任何非空子集必须都满足这个最小支持度。　　 Apriori使用一种逐层搜索的思想来生成频繁项目集。它采用多轮搜索的方法，每一轮搜索一遍整个数据集，并最终生成所有的频繁项目集。在第一轮搜索中，算法计算出所有只包含一个项目集的项集在事务集合中的支持度，并据此得到初始的单项目集（即1-频繁项目集）F1。随后的每一轮所搜都分为三步：　　 (1)将算法第(k-1)轮搜索生成的频繁项目集集合Fk-1作为种子集合产生候选的项集集合Ck，而Ck中的这些候选项集都是可能的频繁项目集，这个过程由candidate-gen()函数完成。　　 (2)随后算法对整个事务数据库进行扫描，计算Ck中的每个候选项集c的支持度，注意，在整个计算过程中并不需要将整个数据集加载入内存，事实上，在任何时候我们都只要在内存中保留一条事务记录，因此Apriori算法可以用于处理非常巨大的数据集。　　 (3)在本论搜索的最后，算法计算Ck中每个候选项集的支持度，并将符合最小支持度要求的候选项集加入Fk中。　　算法最后输出的是所有频繁项目集的集合F。　　 3.2 候选项集集合Ck的生成函数　　该函数分为两部分：合并和剪枝。　　合并：将两个(k-1)-频繁项目集合并来产生一个可能的k-候选项集c。两个频繁