关联挖掘算法及发展趋势.docVIP

下载本文档

23
0
约1.08万字
约 16页
2018-07-31 发布于湖北
举报
版权申诉

关联挖掘算法及发展趋势.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

关联挖掘算法及发展趋势　　摘要：本文对关联挖掘算法进行了分析总结。首先提出了关联挖掘问题，阐述了关联规则的有关概念，然后从静态数据、动态数据和大数据等3个方面分别介绍了关联挖掘及其优化算法，指出目前?P联挖掘算法存在的不足，认为弱关联分析和大数据环境下的关联算法研究将是未来的发展趋势。　　关键词：数据挖掘；频繁项集；关联规则；大数据　　中图分类号：TP311 　　文献标志码：A 　　文章编号： 2095-2163（2017）05-0022-04 　　Association mining algorithm and its development trend 　　Abstract：　　This paper summarizes the association mining algorithms to obtain some insights on its analysis. The correlation analysis problem is put forward first before setting forth association analysis as well as its optimization algorithms from static data， dynamic data and big data. An indepth analysis on what is considered to be defect of correlation analysis mining algorithms is made， which shows the weak correlation analysis and correlation algorithm study under big data environment will be the developing trend in the future. 　　Keywords： data mining； frequent item set； association rules； big data 　　基金项目：河北省科技支撑计划项目；中央高校基本科研业务费专项资金（Z。　　收稿日期： 2017-08-19 　　0引言　　“啤酒与尿布”的故事是关联分析中引用最多、最经典的例子，也有人提出“猪肉炖粉条”能更好地说明关联分析，无论哪个案例都旨在说明关联分析的目的是挖掘数据集中不同项之间的联系。随着电商时代和大数据时代的到来，数据挖掘技术由于能从众多数据中有效地挖掘出对人类社会有用的信息，越来越受到各行各业的青睐。关联分析方法是数据挖掘中最活跃的算法之一，被各领域用于挖掘事务之间隐含的关联性。　　1关联分析问题　　关联分析也称关联挖掘，是一种简单、实用的数据分析方法。从严格数学理论角度看，关联分析技术并不复杂，只要把大量数据放一起，经过运算就可以发现数据间的关联性和相关联的物理量，表明一个参数或者一组参数与事件的关系。　　Agrawal等人[1]针对购物篮分析问题，在1993年提出了关联规则概念，目的是为了发现交易数据库中不同商品之间的关联性，藉此获得顾客购买商品的一般规则，从而科学地指导商家合理安排进货、管理库存、布置货架、制定商品营销策略等[2]。　　其中， σ（X）表示X出现的频次，σ（X∪Y）表示X和Y同时出现的频次。　　强关联规则支持度表明规则的普遍性，而置信度表示规则的可靠性。如果某个蕴含规则的支持度和置信度都满足分别给定的阈值，则称该蕴含规则为强关联规则。　　Apriori定理[WT5”BZ]如果项集X是频繁项集，那么X的任一非空子集都是频繁项集。　　根据上述定理，其逆否命题也成立，即：如果某个项集X不是频繁项集，那么以该项集X作为子集的任何集合都不是频繁项集。　　]2静态数据关联分析挖掘算法　　目前，研究关联分析挖掘算法的主要研究即是对静态数据集进行处理，这类方法可以称为静态关联分析。　　2.1经典Apriori及其优化　　2.1.1经典Apriori算法　　Apriori算法是Agrawal和Strikant于1994年提出的第一个关联规则挖掘算法[3]，能够较好地发现规则。Apriori算法的基本思想是采用从上至下逐层搜索迭代的方法，先逐次扫描数据库计算每一项出现的个数，将大于最小支持度的项作为频繁1-项集L1，在频繁1-项集L1基础上按照大于最小支持度原则生成频繁2-项集L2，依次找寻下去，直至找不到频繁k-项集Lk为止。　　Apriori算法的过程包括连接和剪枝两个过程。连接指频繁（k-1）-项集集合Lk-1