LR:一种新的频繁项集挖掘算法.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第1章数据挖掘 数据库产品中来,使得大型数据库的功能向智能化的方向迈进了重要的一步。 与国外相比,国内研究起步较晚,1993年国家自然科学基金首次支持国内 研究机构对该领域的研究。目前,国内从事数据挖掘研究的人员主要在大学,部分 在研究所或公司。研究领域集中在学习算法的研究、数据挖掘的实际应用以及有 关数据挖掘理论方面的研究。 1.4 数据挖掘的发展趋势 当前,鉴于数据、数据挖掘任务和数据挖掘方法的多样性,给数据挖掘方法提 出了许多挑战性的课题,这些课题包括: 1.可伸缩的算法。 2.交互式发现。 3.与数据库系统、数据仓库系统干llWeb数据库系统的集成。 4.数据挖掘语言的标准化。 5.可视化数据挖掘。 6.复杂数据类型挖掘。 7.web挖掘、隐私保护和信息安全等。 第2章关联规则挖掘 关联规则问题是数据挖掘领域十分活跃的热点,也是数据挖掘中最重要的一 个分支,已经引起了数据库、人工智能、统计学、信息检索、可视化等诸多研究 领域的专家和研究机构的广泛重视,并取得了很多重要成果。 关联规则挖掘实际上是寻找给定数据集中项之间的有趣联系。从大量商务事 务记录中发现有趣的关联关系,可以有助于许多商务决策的制定。关联规则挖掘 的一个典型例子是购物篮分析。该过程通过发现顾客购买的商品之间的关系,分 析顾客的购买习惯,从而做出相应的销售策略。 关联规则是在1993年由IBM公司的Agrawal提出,以后很多人对它进行大量研究,大致涉及三个方面:~是经典频繁项集挖掘的高性能算法研究,包括对算法的改进,以及探索新的挖掘方法;二是拓展频繁项集的概念,提出相应的挖掘算法:三是拓展关联规则概念及应用范围,包括规则的价值评估、新的关联规则类型等。 2.1 关联规则挖掘的基本概念 2.1.1项目集的概念 定义1关联规则挖掘的数据集记做D(一般是事务数据库),D=“,t2,.,tn},其中tk={it,i2 fml(^=1 n)叫做事务或记录,ip(p=l m)N做项目(Item)。每一个事务都有一个唯一的标识符,称为TID。 定义2设仁{f。,f2 iq}7黾D中全体项目的集合。,的任何子集x称为D中的 项目集(Itemset)。若凶斯,即项目集中包含项目的个数或项目集的长度为k,则 称项目集x为k项目集(k-itemset)。 定义3设氏和x分别为D中的事务和项目集,如果事务tk包含盖中的所 有项目,即ⅣCfk,称事务rk包含项目集x,或称“支持石。数掘集D中包含项 目集x的事务数称为项目集x的计数或支持数,记做s㈣。项目集x的支持度记 做support(X),它是x在数据库中的概率P∞,计算公式为: 中山大学硕卜学位论文 第2章关联规则挖掘 s啪on∞。篱x100% 公式2-1 其中lDI是事务集D的事务总数。 定义4若support(X)不小于用户指定的最小支持度min.sup,则称项目集x 为频繁项集,否则为非频繁项集。频繁t项集的集合通常记做h。 定义5设L为频繁项集集合,我们定义最大频繁项集集合肘为: M={,∈工I不存在』’∈L且,C,’) 即最大频繁项集是一个频繁项集P,使得P的任何真超集都不是频繁的。 定义6项集工是频繁闭项集如果不存在项集刀同时满足如下两个条件: (1)x CX’(2)supportC的=suppon(r),这样的频繁项集x叫做频繁闭项集。 2.1.2关联规则挖掘的概念 定义7彳、y为项目集,且Jny为空,蕴含式x—y称为关联规则,x、y分 别被称为关联规则x—Y的前提和结论。项目集Xu Y的支持度称为关联规则的 支持度,用于衡量规则在数据库中的统计重要性,记做suppon(x=爿): support口j功=support(XU y)=P(XU y) 公式2—2 关联规则x—Y的置信度是D中包含硼拘事务同时也包含Y的百分比,即条件概率 P(y脚,用于衡量规则的可信程度,记做confidenceⅨ卅): confidence晖j y)=P(焖=—suppor—t(XUY)×100%  公式2—3 support(X) 通常由用户指定最小支持度min—sup和最小置信度min~conf,只有符合最小支 持度和最小置信度的规则才是用户感兴趣的关联规则,这种规则称为强规则。 2.2 关联规则挖掘问题分解 关联规则挖掘问题的解决分为两步: ·找出所有的频繁项集。这些项集必须满足最小支持度。 ● 由频繁项集产生强关联规则。规则必须满足最小支持度和最小置信度。 中山大学硕士学位论文 第2章关鞋规则挖掘 这两步中,第一步最关键,是关联规则挖掘问题的核心,它的性能决定若关 联规则挖掘的整体性能。因此大部分的关联规则研究将重点放在此步上,产生了 很多的频繁项集挖掘算法。 2.3 关联规则挖掘的研究进展 1.多层关联规则挖掘。Agra

您可能关注的文档

文档评论(0)

lh2468lh + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档