基于条件模式的最大频繁项目集挖掘算法.pdfVIP

基于条件模式的最大频繁项目集挖掘算法.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于条件模式的最大频繁项目集挖掘算法.pdf

2005年全国自动化新技术学术交流会会议论文集 基于条件模式的最大频繁项目集挖掘算法 王一飞,章勇 (南京航空航天大学信息科学与技术学院,江苏南京210016) 摘要:挖掘最大频繁项目集是数据挖掘中的关键问题之一,特别是在存在大量强模式和长模式的时候。 在分析了诸多算法的基础上,提出了一种高效的挖掘最大频繁项目集的新算法CPMMFIA(mine maximal itemsets based012condition frequent algorithm pattern),此算法采用自上而下的策略, 深度优先,非常适用于挖掘最大频繁模式。经数学证明和实验分析,能高效地挖掘最大频繁项目集。 关键词:数据挖掘;关联规则;最大频繁项目集;条件模式 中图分类号:TPl81 文献标识码:A 0引言 关联规则是由Agrawal等人于1993年提出的一个重要的数据挖掘研究课题,它最初是被应用于 超级市场的购物篮分析。近年来,它已在商业、金融、科学研究、政府、企业等领域得到了广泛的 应用。关联规则挖掘发现大量数据中项目集之间有趣的关联或相关联系,发现频繁项目集是关联规 则挖掘应用中的关键技术和步骤,然后再由频繁项集产生强关联规则。对于一个项集X,如果其支 持度大于等于用户给定的阈值min—Sup,则称X为频繁项集(FI)或频繁模式。如果X是一个频繁项集, 而且X的任意一个超集都是非频繁的,则称X是最大频繁项目集(MFI)或最大频繁模式。频繁闭项集 (FCI)是一个频繁的闭的项集,其中项集X是闭的,如果不存在X的真超集x’,使得每个包含X的事 务也包含义’。这三者中以MFI规模最小(MFI∈FCIsFI)。 对于稠密数据库或者支持度阈值比较小时,由于频繁模式的数量会以指数形式增长,使得找出所 有的频繁模式成为不可能的任务。计算项目集的支持数是发现频繁项目集中最耗时的工作,占据整 个计算量的大部分,因此,降低候选项目集的数量是减小开销的最好手段。由于最大频繁项目集中 已经隐含了所有频繁项目集,所以可把发现频繁项目集的问题转化为发现最大频繁项目集的问题。 另外,某些数据开采应用仅需发现最大频繁项目集,而不必发现所有的频繁集12J2。因而发现最大频 繁项目集对数据挖掘具有重大意义。 近年来,在关联规则中频繁项目集算法的研究中先后出现了诸多算法,其中以Agrawal等人提出的 法141最为典型,在此基础上相继出现了一些最大频繁项目集挖掘算法,如Max—Minerl5I, 9I,DMFIll0I等。在诸多算法中大致可分为 DepthProjectl61,MAFIA[7I,GenMaxl8I,Pincer—SearchI 两类: (1)、以Apriori算法为原型,进行改进。此类算法的大体思路为:使用逐层搜索技术,给定 k一项集,我们只需要检查它们的(k一1)一子集是否频繁(这一点是根据称做反单调的Apriori性质), 这样就得到了大量的候选项集。然后扫描数据库,依据支持度从候选项集中选出频繁项集。这类算 法只要有两种开销降低了算法的性能:一个是它可能需要产生大量侯选项集;还有就是它可能需要 重复地扫描数据库,通过模式匹配检查一个很大的侯选集合。 (2)、将数据库投影到一棵频繁模式树(FP一树),但仍保留项集关联信息;然后将这种压缩后 的数据库分成一组条件数据库,每个关联一个频繁项,并分别挖掘每个数据库。这个算法只进行2 次数据库扫描。但是这类算法需要存储表、接点和链接信息,在一些情况下的内存存储空间是不可 低估的,而且这种树结构是一种非线性结构,一般需要链表等形式存储,本身就增加了存储链接信 息的额外代价。 作者简介:王一飞(1981一),男,江苏宿迂人,硕士生,数据挖掘 422 2005年全国自动化新技术学术交流会会议论文集 总结以上各种优缺点,本文设计了CPMMFIA算法,它是一个使用线性结构存储数据库信息、 一次数据库扫描的高效最大频繁项目集挖掘算法。它借鉴了FP—growth算法中的条件模式基,利用 条件模式来压缩事物范围,进行自上而下的深度遍历;并且幂Ⅱ用利用Apriori性质来进一步压缩待 扫描的项集。此外,根据事物数据库的特点,采用了基于按位存储的矩阵数据结构,将事物数据库 压缩

文档评论(0)

带头大哥 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档