并行序列模式挖掘.docVIP

下载本文档

3
0
约7.7千字
约 5页
2018-06-02 发布于河南
举报
版权申诉

并行序列模式挖掘.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

并行序列模式挖掘

并行序列模式挖掘研究概况 R.Agrawal等人在1995年首先提出序列模式挖掘的概念]，其问题描述如下。在由多个交易组成的交易数据库，个交易描述某个顾客在某时间购买物品的集合。物品的集合项集。相同顾客交易包含的项集的子集按时间先后关系排列序列每个子集称为一个元素(element)给定由用户确定的最小支持度值(min_support threshold)，序列模式挖掘就是去发现所有子序列的出现频率不小于给定的最小支持度的频繁子序列。序列模式挖掘的问题被提出以后，人们在时间序列数据库中挖掘序列模式和其他频繁模式的算法不断地研究和改进。现有的序列模式挖掘算法主要可以分为两类:第一类是基于Apriori特性的算法[]。R.Agrawal和R.srikant在1994年提出的其基本思想是任一个频繁模式的子模式必是频繁的。基于特性，人们提出了一系列类APriori的序列模式挖掘算法，这些算法中有采用水平数据格式(horizontal data format)的算法，如AprioriAll算法[]、GP算法[]、PP算法[等;有采取垂直数据格式(vertica datarmat)的算法，如PADE算法[]、PAM算法[]等。第二类是J.Han等人提出的基于模式增长(patterngrowth)策略的算法，如Freespan算法[]、Prexspan算法[],[9]等。另外，.Antunes等人提出了PARSE算法[]。在很多序列模式挖掘任务中，用户不需要找出数据库中所有可能存在的序列模式，而是加入一定的约束，找出用户感兴趣的序列模式]，Agrawal等人将序列模式挖掘问题加以泛化，引入了时间约束、滑动时间窗口(sliding timwindow)和分类约束，并提出了GSP算法[]。上述序列模式挖掘算法都是在一维信息中挖掘序列模式。在多维序列模式H.Pint等人提出的niSeq算法]能有效地挖掘多维序列模式，但在维度较高时其挖掘性能会有所下降。当前国内外学者研究方向还包括增量式(Incermental)序列模式挖掘[]、闭合(losed)序列模式挖掘]、周期性(Peirodi)模式挖掘[、结构(Strueture)模式挖掘[]、近似(Approximate)序列模式挖掘[]等。并行关联规则挖掘方面的研究起步较早，了许多优秀的算法[[24]。序列模式是关联规则的扩展，并行序列模式挖掘很快人们重视。当前大多数并行序列模式挖掘算法都是对串行算法并行化的结果序列模式挖掘的经典算法GSP的思想扩展到并行序列模式挖掘中。Shintani等人提出了基于GSP算法的三种并行策略NPSPM、SPSPM、HPPM[25]。在算法NPPM中，候选序列复制到所有处理器中，每个处理器利用本地数据库计算本地支持度，在每次迭代之后执行一个归约操作得到其全局支持度。NPSPM在每个节点上复制完整的候选集，大型数据库会内存溢出SPSPM策略将候选集划分成大小相等的块后分别置于各处理器中。SPSPM利用系统的聚合内存，额外的通信开销因为得到序列的全局支持度每个处理器的本地数据库广播到其他所有的处理器HPSPM采用了一个更加智能的策略，一方面基于Hash机制对候选序列进行划分另一方面，它减少了所需的通信时间。相比前面两个HPSPM的性能最好。 Guralnik等人提出了一类基于树投影技术的并行序列模式算法[。根据并行策略，算法可被分为两种一种是数据并行模式DPF原始数据库被划分成p个大小相等的块存于p个处理器上，每个处理器拥有一个相同的字典树各处理器计算本地支持度然后通过通信和归约操作得到各候选序列的支持度，然后将全局支持度发送到各处理器，并求出第k层的频繁序列另外一种形式是任务并行模式TPF利用数据并行算法扩展树直到某一层k+1(k0);然后第k层不同节点划分到各处理器上一旦初始分配完成，每个处理器继续产生子树(子森林)，比DPF更好的扩展性。 aki等人提出了PADE算法28]处理共享内存计算机上的序列模式挖掘问题。该算法采用了如下技术:(l)使用垂直数据库的数据格式，通过简单时态连接列举出所有频繁序列;(2)利用格理论，将原始搜索空间分解成基于后缀的类，这些类可在主存中被单独处理。这种分解过程在下一层被递归地应用到各个父类上以产生更小的类;.(3)提出了异步机制，使得处理器工作在不同的类上，处理器之间无须共享或同步;(4)为了保证各处理器上的负载均衡，提出了动态负载均衡机制，即任何一个空闲处理器将加入到一个忙碌的处理器上以处理在更高层形成的类。通过这些技术，算法在减小/O开销和实现负载均衡方面取得了较好的效果。近年来，科研人员开始把并行化技术引入到闭合序列模式挖掘中去，如韩家炜等人提出的算法ParP[29]，通过将伪投影分配给不同的处理器以实现并行化。