基于树表示与虚拟投影的频繁模式挖掘算法.pdfVIP

基于树表示与虚拟投影的频繁模式挖掘算法.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于树表示与虚拟投影的频繁模式挖掘算法.pdf

基于树表示与虚拟投影的频繁模式挖掘算法 刘君强 杭州商学院科技处310035 li翊丛四@啦堑!:h圣:红蛆 摘要本文提出了一种按深度优先策略挖掘频繁模式的全新算法PseudoProjection。它首创 了虚拟投影方法,避免了递归建造与频繁模式数量相同的投影事务子集,不仅投影 事务子集不需要附加存贮开销而节塔空间,而且计数与投影操作的时间效率也非常 高出l到3个数量级,并且空间可伸缩性也大大优于这些算法。 关键词知识发现数据挖掘频繁模式 1引言 频繁模式挖掘是很多数据挖掘问题的关键。挖掘过程中得到的频繁模式集可以组织成一 棵树,这样挖掘过程就是建树过程。它就需要不断进行事务子集投影,即确定支持各个频繁 模式的事务子集。因此,算法效率和存贮开销取决于建树策略、事务子集表示法和投影方法。 现有算法已提出了宽度优先【1,3】和深度优先【2,4】的建树策略,设计了基于树[5】、数组【6】、 垂宜二进位图[2】和水平二进位串[4】的事务子集表示法。但是,或者需要反复扫描原始数据库 进行模式匹配或者需要递归创建个数等于频繁模式数的事务子集,投影方法的效率非常低。 本文提出了基于树表示形式的虚拟投影方法,提高了按深度优先策略进行事务子集投影 2构造频繁模式树 设项目集,={fI’“.,‘),文字‘是一个项目;数据库T=“f:。一t),事务t。£,。每个事务 的标识为TID;模式P∈,被事务t所包含,若p∈f。r对P的支持率supp(p,巧是r中包含P 的事务数。P是频繁模式,若supp(p,r)≥f(阀值)。为避免重复,可以规定项目排列次序。 频繁模式树,简称FPT,是一棵有序树。每个结点用项目标注,并赋予权重。沿任一路径 自顶向下或自左向右遍历任意结点的子女,标注项目均按规定次序排列。每个频繁模式由且 仅由一条从根起始的路径表示,路经终点的权重是模式的支持数,根结点对应空模式。各结 点权重不需要存贮,并且FPT本身也不必完整地存贮在内存中。 每个FPT结点都有自己的投影事务子集,简称PTS,由所有支持从根至该结点路径所表 示模式的事务组成。根结点的PTS就是原始数据库,其它结点的PTS由其父亲结点的PTS投 影而来。如果PTS只保留对进一步投影有用的项目,则是过滤型的,否则是非过滤型的。显 978 然,过滤型PTS中每个项目在其父亲PTS中是频繁的。如图1的数据库有5个事务,设支持 表示频繁模式{c,em),支持数为3。 ,多彩六N 1ID (a,3)(6’3)(G Items 4)(-4,4)(皿3)(n3) 01a f cd im g p //r、\卜≮S§ 02abcf1m0 (c,3)(f 3)(皿3)(‘3)(皿3)(且3)(皿3) 03bfhj 0 /\\ l 046 k C Ps (£3)(皿3)(皿3)(皿3) 05acef1mn p J 图l事务数据库 (皿3) 图2.频繁模式MFPT 3基于树表示的虚拟投影算法 (1)用TTF表示PTS 穿线事务树林T1’F是一种基于树的PTS表示,由两部分组成:项目列表IL和事务树林。 每个IL条目有三个域:项目、支持率计数、链指针。各条目按给定项目次序排列。每个事务 由且仅由一条路径表示。每个结点用(i,w)标注,i是标注项目,权重W是从根起始至

文档评论(0)

带头大哥 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档