一种改进的压缩频繁模式挖掘算法.pdfVIP

  1. 1、本文档共7页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一种改进的压缩频繁模式挖掘算法.pdf

第 38卷 第 7期 西 南 师 范 大 学 学 报 (自然科学版) 2013年 7月 Vo1.38 No. 7 JournalofSouthwestChinaNormalUniversity (NaturalScienceEdition) Ju1. 2013 文章编号 :1000—5471(2013)07—0093—07 一 种改进的压缩频繁模式挖掘算法① 赖 娟 , 金 澎 , 洪艳伟 1.乐 山师范学 院 智能信息处理及应用实验室 ,四JlI乐山 614000;2.乐 山师范学 院 计算机科学学 院,四川 乐山 614000 摘要 :传统的频繁模式挖掘算法产 出大量 的频繁模式 ,这些大量 的频繁模式对于后期的分析、处理以及理解都带 来 了相当大的挑战.针对上述问题 ,该文提 出了一种改进的压缩频繁模式挖掘算法 ,该算法基于 CFP一树通过对传 统频繁模式挖掘算法 的改进能够从大量 的频繁模式中选择 出规模更小的频繁模式代表集合 ,从而起到减小庞大的 频繁模式挖掘结果规模的 目的.实验中还将该算法和现有的RPlocal算法进行 了对 比,结果表明改进的压缩频繁模 式挖掘算法能够在合理的时间及容错范围内获得更小的频繁模式代表集 ,同时大大降低 了时间复杂度 ,提高了挖 掘效率. 关 键 词 :频繁模式;模式挖掘 ;容错范围;频繁模式代表集 ;闭频繁模式 中图分类号 :TP393.027 文献标志码 :A 在数据挖掘领域,频繁模式挖掘是一个很重要 的问题.当前 已经有很多有效的频繁模式挖掘算法提 出口],传统的频繁模式挖掘算法E2-a~经常产生大规模 的频繁模式结果集 ,这些大量 的结果集在人们对这些 信息做进一步分析 、处理和理解时带来了相当大的困难 ,这就需要找到一种规模相对较小的代表集来近似 代表大规模结果集.目前人们研究热点开始从如何挖掘出频繁模式 ,转移到如何有效地利用他们的问题上 来 ,国内一些学者也在该领域有 了初步进展_l4 ]. 早在 1993年 Agrawal等l9]就提出了该问题 ,频繁模式挖掘通常是基于一个事务集合 D一 {tl,tl,…, tn},其 中事务 tj是构成事务集合D 的一个项的集合 ,J∈[1,”].项的集合 一 {以,2,…, },其中模 式 X是 的非空子集 ,即X J,如果t包含了模式X 中的所有的项 ,我们就说事务 蕴含模式X,,,(x) 为事务集合 D中蕴含模式 x 的所有事务 的集合 ,其中对模式 x 的支持度表示为supp(x),大小为 T(x); 如果模式 X 的支持度的大小超过 了用户事先设置的最小支持度min—sup的大小 ,那么模式 X 就是频繁 模式. 频繁模式有个属性 ,即如果模式 X是频繁模式 ,那么组成它 的项构成 的任意子集形成的模式y也是频 繁模式 ,如果待分析的事务集合 D比较大或是事先设置的最小支持度min~sup较小就会产生比较长的频繁 模式 ,最终会得到一个规模 比较大的频繁模式结果集合 ,当该结果集 的规模大到一定程度就会成为进一步 分析 、处理这些频繁模式 的瓶颈. 研究表 明传统方法挖掘出的频繁模式结果集 中有很多相似的频繁模式 ,从而存在很大程度上的冗余 , 现在有一种研究趋势是用一个频繁模式来代替多个相似的频繁模式 ,比如有一种闭频繁模式算法 ,介绍了 S一 {Y IT(y)一 T(x)},其 中s是有相 同的项集合构成的频繁模式的集合 ,s中的模式具有很强的相似 性 ,该集合中最长的模式被称为闭频繁模式.S中的其他模式均为该最长 的模式 的子集,具有这个性质的 模式被认为能代表 s集合所有的频繁模式.该算法在一定程度上缩小了频繁模式挖掘结果集合 的规模 ,但 ① 收稿 日期 :2013—01—13 基金项 目:四川省教育厅科研资助项 目(¨ZB219). 作者简介 :赖 娟 (1979一),女,四川泸州人,硕士,讲师,主要从事 自然语言处理及嵌入式实时系统研究 94 西南师范大学学报 (自然科 学版) 第 38卷 结果集的规模依旧很大. 闭频繁模式挖掘算法是一种无损的频繁模式挖掘结果集合压缩算法 ],韩家伟等 胡弱化了该限制

文档评论(0)

kittymm + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档