LR：一种新的频繁项集挖掘算法.docx

下载文档 降价啦

3
0
约2.48万字
约 43页
2019-08-30 发布于江苏
举报
版权申诉
保障服务

LR：一种新的频繁项集挖掘算法.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

第1章数据挖掘数据库产品中来，使得大型数据库的功能向智能化的方向迈进了重要的一步。与国外相比，国内研究起步较晚，1993年国家自然科学基金首次支持国内研究机构对该领域的研究。目前，国内从事数据挖掘研究的人员主要在大学，部分在研究所或公司。研究领域集中在学习算法的研究、数据挖掘的实际应用以及有关数据挖掘理论方面的研究。 1．4 数据挖掘的发展趋势当前，鉴于数据、数据挖掘任务和数据挖掘方法的多样性，给数据挖掘方法提出了许多挑战性的课题，这些课题包括： 1．可伸缩的算法。 2．交互式发现。 3．与数据库系统、数据仓库系统干llWeb数据库系统的集成。 4．数据挖掘语言的标准化。 5．可视化数据挖掘。 6．复杂数据类型挖掘。 7．web挖掘、隐私保护和信息安全等。第2章关联规则挖掘关联规则问题是数据挖掘领域十分活跃的热点，也是数据挖掘中最重要的一个分支，已经引起了数据库、人工智能、统计学、信息检索、可视化等诸多研究领域的专家和研究机构的广泛重视，并取得了很多重要成果。关联规则挖掘实际上是寻找给定数据集中项之间的有趣联系。从大量商务事务记录中发现有趣的关联关系，可以有助于许多商务决策的制定。关联规则挖掘的一个典型例子是购物篮分析。该过程通过发现顾客购买的商品之间的关系，分析顾客的购买习惯，从而做出相应的销售策略。关联规则是在1993年由IBM公司的Agrawal提出，以后很多人对它进行大量研究，大致涉及三个方面：～是经典频繁项集挖掘的高性能算法研究，包括对算法的改进，以及探索新的挖掘方法；二是拓展频繁项集的概念，提出相应的挖掘算法：三是拓展关联规则概念及应用范围，包括规则的价值评估、新的关联规则类型等。 2．1 关联规则挖掘的基本概念 2．1．1项目集的概念定义1关联规则挖掘的数据集记做D(一般是事务数据库)，D=“，t2，．，tn}，其中tk={it，i2 fml(^=1 n)叫做事务或记录，ip(p=l m)N做项目(Item)。每一个事务都有一个唯一的标识符，称为TID。定义2设仁{f。，f2 iq}7黾D中全体项目的集合。，的任何子集x称为D中的项目集(Itemset)。若凶斯，即项目集中包含项目的个数或项目集的长度为k，则称项目集x为k项目集(k-itemset)。定义3设氏和x分别为D中的事务和项目集，如果事务tk包含盖中的所有项目，即ⅣCfk，称事务rk包含项目集x，或称“支持石。数掘集D中包含项目集x的事务数称为项目集x的计数或支持数，记做s㈣。项目集x的支持度记做support(X)，它是x在数据库中的概率P∞，计算公式为：中山大学硕卜学位论文第2章关联规则挖掘 s啪on∞。篱x100％公式2-1 其中lDI是事务集D的事务总数。定义4若support(X)不小于用户指定的最小支持度min．sup，则称项目集x 为频繁项集，否则为非频繁项集。频繁t项集的集合通常记做h。定义5设L为频繁项集集合，我们定义最大频繁项集集合肘为： M={，∈工I不存在』’∈L且，C，’) 即最大频繁项集是一个频繁项集P，使得P的任何真超集都不是频繁的。定义6项集工是频繁闭项集如果不存在项集刀同时满足如下两个条件： (1)x CX’(2)supportC的=suppon(r)，这样的频繁项集x叫做频繁闭项集。 2．1．2关联规则挖掘的概念定义7彳、y为项目集，且Jny为空，蕴含式x—y称为关联规则，x、y分别被称为关联规则x—Y的前提和结论。项目集Xu Y的支持度称为关联规则的支持度，用于衡量规则在数据库中的统计重要性，记做suppon(x=爿)： support口j功=support(XU y)=P(XU y) 公式2—2 关联规则x—Y的置信度是D中包含硼拘事务同时也包含Y的百分比，即条件概率 P(y脚，用于衡量规则的可信程度，记做confidenceⅨ卅)： confidence晖j y)=P(焖=—suppor—t(XUY)×100％公式2—3 support(X) 通常由用户指定最小支持度min—sup和最小置信度min～conf，只有符合最小支持度和最小置信度的规则才是用户感兴趣的关联规则，这种规则称为强规则。 2．2 关联规则挖掘问题分解关联规则挖掘问题的解决分为两步： ·找出所有的频繁项集。这些项集必须满足最小支持度。 ● 由频繁项集产生强关联规则。规则必须满足最小支持度和最小置信度。中山大学硕士学位论文第2章关鞋规则挖掘这两步中，第一步最关键，是关联规则挖掘问题的核心，它的性能决定若关联规则挖掘的整体性能。因此大部分的关联规则研究将重点放在此步上，产生了很多的频繁项集挖掘算法。 2．3 关联规则挖掘的研究进展 1．多层关联规则挖掘。Agra