关联分析方法解析.doc

下载文档 降价啦

9
0
约 11页
2017-01-12 发布于湖北
举报
版权申诉
保障服务

关联分析方法解析.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

关联分析方法解析

深圳大学研究生课程论文题目对关联分析方法的学习报告成绩专业软件工程(春) 课程名称、代码数据库与数据挖掘 142201013021 年级 2013 姓名刘璐学号 20134313008 时间 2014 年 11 月任课教师傅向华 1关联分析方法及其应用综述 1.1关联分析概念关联分析是一种简单、实用的分析技术，就是发现存在于大量数据集中的关联性或相关性，从而描述了一个事物中某些属性同时出现的规律和模式。关联分析是从大量数据中发现项集之间有趣的关联和相关联系。关联分析的一个典型例子是购物篮分析。该过程通过发现顾客放人其购物篮中的不同商品之间的联系，分析顾客的购买习惯。通过了解哪些商品频繁地被顾客同时购买，这种关联的发现可以帮助零售商制定营销策略。其他的应用还包括价目表设计、商品促销、商品的排放和基于购买模式的顾客划分。可从数据库中关联分析出形如“由于某些事件的发生而引起另外一些事件的发生”之类的规则。如“67%的顾客在购买啤酒的同时也会购买尿布”，因此通过合理的啤酒和尿布的货架摆放或捆绑销售可提高超市的服务质量和效益。又如“‘C语言’课程优秀的同学，在学习‘数据结构’时为优秀的可能性达88%”，那么就可以通过强化“C语言”的学习来提高教学效果。世间万物的事情发生多多少少会有一些关联。一件事情的发生，很可能是也会引起另外一件事情的发生。或者说，这两件事情很多时候很大程度上会一起发生的。那么人们通过发现这个关联的规则，可以由一件事情的发生来，来推测另外一件事情的发生，从而更好地了解和掌握事物的发展，动向等等。这就是数据挖掘中，寻找关联规则的基本意义。数据挖掘技术中的关联规则挖掘是通过计算机自动从一大对真实数据中发现这样的关联规则出来。对于计算机而言，它需要知道所有的事情发生情况，并且把相应的事情合并成一个事务，通过对各个事务的扫描，来确定事情的关联规则。 1.2关联分析算法简介 Apriori算法[1] 是一种最有影响的挖掘布尔关联规则频繁项集的算法。其核心是基于两阶段频集思想的递推算法。该关联规则在分类上属于单维、单层、布尔关联规则。在这里，所有支持度大于最小支持度的项集称为频繁项集，简称频集。该算法的基本思想是：首先找出所有的频集，这些项集出现的频繁性至少和预定义的最小支持度一样。然后由频集产生强关联规则，这些规则必须满足最小支持度和最小可信度。然后使用第1步找到的频集产生期望的规则，产生只包含集合的项的所有规则，其中每一条规则的右部只有一项，这里采用的是中规则的定义。一旦这些规则被生成，那么只有那些大于用户给定的最小可信度的规则才被留下来。为了生成所有频集，使用了递归的方法。（1） L1 = find_frequent_1-itemsets(D); （2） for (k=2;Lk-1 ≠Φ ;k++) { （3） Ck = apriori_gen(Lk-1 ,min_sup); （4） for each transaction t ∈ D {//scan D for counts （5） Ct = subset(Ck,t);//get the subsets of t that are candidates （6） for each candidate c ∈ Ct （7） c.count++; （8） } （9） Lk ={c ∈ Ck|c.count≥min_sup} （10） } （11） return L= ∪ k Lk; 可能产生大量的候选集,以及可能需要重复扫描数据库，是Apriori算法的两大缺点。由于Apriori方法的固有缺陷．即使进行了优化，其效率也仍然不能令人满意。2000年，Han Jiawei等人提出了基于频繁模式树（Frequent Pattern Tree，简称为FP-tree）的发现频繁模式的算法FP-growth。在FP-growth算法中，通过两次扫描事务数据库，把每个事务所包含的频繁项目按其支持度降序压缩存储到FP—tree中。在以后发现频繁模式的过程中，不需要再扫描事务数据库，而仅在FP-Tree中进行查找即可，并通过递归调用FP-growth的方法来直接产生频繁模式，因此在整个发现过程中也不需产生候选模式。该算法克服了Apriori算法中存在的问颢．在执行效率上也明显好于Apriori算法。 GRI算法是关联规则的算法之一，侧重