基于MapReduce和AprioriAll的分布式序列挖掘算法.docVIP

基于MapReduce和AprioriAll的分布式序列挖掘算法.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于MapReduce和AprioriAll的分布式序列挖掘算法.doc

基于MapReduce和AprioriAll的分布式序列挖掘算法   摘 要:序列挖掘技术,能够从大量杂乱的数据中挖掘出用户的潜在访问模式。然而,传统的挖掘技术,由于其性能和扩展性的诸多限制,并不适合现今大数据下的挖掘任务。本文基于传统的挖掘算法AprioriAll,在结合国内外研究进展的基础上引入分布式概念格模型,提出了分布式序列挖掘算法PAHDP。通过在分布式系统上构建算法原型,并加以评估,本文证明了该算法的正确性和有效性,具有一定的应用价值。   关键词:数据挖掘;分布式计算;概念格;Hadoop   中图分类号:TP311   分布式计算的思想,可以将仅仅由单个计算机难以计算和维护的计算任务分为很多小的、相互独立的部分,然后把这些部分分配给很多台计算机进行处理。在这个基础上,利用分布式系统架构MapReduce,用户可以在不了解分布式底层细节的情况下,充分利用其框架下集群的高传输率与容错率的优点进行计算与存储。   正是在这种背景下,采用分布式计算以实现庞大数据集的数据挖掘,成为了目前国内外的研究热点。利用分布式计算,人们可以把庞大的数据集分为小的、相对独立的部分,并部署于集群的计算机中进行计算,最后将结果综合。本文在此基础上,对传统的数据挖掘算法AprioriAll进行了分布式探索,并针对影响性能的多个因素进行了分析与改进。   1 基于AprioriAll的分布式挖掘算法设计与实现   1.1 AprioriAll算法   AprioriAll算法是由R.Agrawal等人提出的,该算法采用迭代增长的思想,首先在数据库中找出所有频繁项集,并在每一次迭代过程中,将上一次得到的序列相互链接以生成新序列。接着,在扫描数据库的同时去掉不满足最小支持度阈值的序列,并将结果作为下一次迭代的候选,直到无法再产生更长的新序列为止。最后,扫描生成的频繁序列,去除包含于其它序列的子序列,留下来的就是最终的结果。该算法结构简单,然而面临着重复扫描哦数据库、难以并行化等问题,需要进行优化。   1.2 算法概述   分布式序列模式挖掘的基本思想是将数据划分为一个个数据分片,再将每个独立的数据分片上进行数据挖掘,最后将所得的数据合并。结合这样的思路,本算法的基本流程则为:(1)数据转换与有机分割。本算法的第一步,就是完成数据源到形式背景的转换。由于输入数据为大量的交易记录,因此此步操作可以在集群系统上完成。对于每一个集群节点,其输入的数据则为交易数据库的一部分,接着,集群节点保存输入的交易信息,并记录其中出现的交易(对象)与商品(属性)。待所有节点完成输入与处理,将每一个形式背景分片合并,即可得到由原数据库转化而得到的形式背景。(2)分布式建格。待数据转化和分割完成之后,各节点即可根据输入的子全概念和其对应的形式背景构造子全格。本算法采用了Bordat算法作为建格算法,其实现简单,且效率较高。(3)频繁1-序列生成。待节点建立好了子全格之后,即可进行频繁1-序列的生成。由于在第1步实现了数据的相对独立分割,因此,此处仅需执行本地操作,无需与外界通信。由于概念格的每一个节点与概念一一对应,而概念则反映了项集(商品集)与其购买记录之间的联系。因此,仅需遍历概念格,对每一个节点计算其外延的支持度,并收集支持度大于最小阈值的概念,其内涵即为频繁项集,也就是频繁1-序列。(4)数据再分配与频繁序列挖掘。待所有节点完成计算,将所有频繁1-序列进行合并,即可得到所有的频繁1-序列,这就是频繁序列挖掘的基础。对于挖掘出的频繁序列集来说,可以按照序列的首元素进行分组,对每一个节点设定其目标序列,所有节点仅需挖掘以目标序列开头的频繁序列。待所有节点对频繁序列的挖掘完毕,即可进行合并,并将最终结果输出。   1.3 改进点分析   针对传统的AprioriAll算法,这个算法做出的改进在于:(1)将传统的串行算法并行化,利用了集群计算的优势提高计算效率。通过将算法部署于MapReduce框架,实现了分布式计算任务的自动部署和负载管理;(2)引入了分布式概念格的思想,避免了AprioriAll算法对数据库的频繁访问,通过对数据的一次访问,即可建立起数据之间的内在联系,为之后的序列挖掘提供了所有的必需信息,从而减少了节点之间的通信;(3)在序列生成上,将传统的挖掘任务分离,通过采用目标序列的办法实现了分布式挖掘,在提高效率的同时减少了冗余数据的出现。   2 实验评测   实验时,共对三种情况下的序列模式挖掘(AprioriAll算法,伪分布式环境下的PAHDP算法与分布式环境下的PAHDP算法)进行了比较与测试。实验设置8组交易数据,其中顾客数目与商品数目相等,并从20增长到2000。顾客平均交易数目与平均每次购买商品数目分别固

文档评论(0)

jingpinwedang + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档