分布式环境下的模式匹配算法.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
 分布式环境下的模式匹配算法 刘杰,杨文川** (北京邮电大学信息与通信工程学院,北京 100876) 5 10 15 20 25 30 35 40 摘要:模式匹配算法是信息处理中常用的算法。但大部分经典的模式匹配算法提出的时间都 比较早,即使这些算法效率很高,在处理海量数据时也有些乏力。如今分布式计算技术已成 为处理海量数据的基本方法。本文利用分布式计算法的技术,对经典的 WM 模式匹配算法 进行改进,提出了一种分布式环境下的模式匹配算法。该算法充分利用 Map-Reduce 的特性, 将 WM 的预处理过程和匹配过程拆分成 Map-Reduce 作业,使处理过程并发进行。本文还将 此算法的执行结果与经典的串行的模式匹配算法进行时间效率上的对比,从而证明该算法在 效率上的优势。 关键词:模式匹配;分布式计算;Map-Reduce;并行 中图分类号:TP391 The Pattern Matching Algorithm In Distributed Computing Environment LIU Jie, YANG Wenchuan (School of Information and Communication Engineering,Beijing University of Posts and Telecommunications, Beijing 100876) Abstract: Pattern Matching is a very popular method in information pocessing. However, most pattern matching algorithm are proposed many years ago. Even though these algorithms are very effective, they are not proper for processing huge amount of data. These years, distributed computing becomes a basic approach to handle this. This paper will use this technology to improve the classic WM pattern matching algorithm and propose a pattern matching algorithm in distributed computing environment. This algoritm will take Map-Reduce features, spliting the processing into pieces of Map-Reduce jobs and making them work simultaneously. This paper will also compare the efficiency of this algorithm with that of the basic pattern matching algorithm, proving this algorithm is more effective. Key words: pattern matching; distributed computing; Map-Reduce; parallel processing 0 引言 模式匹配的算法很多,比较经典的有 KMP 算法[1]、KR 算法[2]、BM 算法[3]以及 WM 算 法[4]等,这些算法大都年代比较久远,在此之后也有很多人提出过针对这些算法的改进。甚 至在某些特定的场合通过一定的条件约束或者特定数据结构可以设计出特定的高效算法,但 是数据量的增长已经远远超过这些算法改进能处理的程度。近年来云计算技术的发展,使得 处理海量数据有了更一般的解决方案。本文利用这些比较典型但是更适合一般情况的算法, 结合云计算环境的相关技术,通过多台机器的协作并行来完成大数据量的模式匹配。 1 经典模式匹配算法 为了更好的讲述模式匹配算法,我们先做如下的定义: 假设字符集为∑,P[1:m]为匹配模式,其中 m 为匹配模式 P 的长度,T[1:n]为被匹配的 串,其中 n 为 T 的长度,且 P 和 T 都是字符集∑任意字符。一般情况下,假设 nm。所有 作者简介:刘杰,1987 年 3 月出生,男,硕士研究生,研究方向数据挖掘 通信联系人:杨文川,1970 年出生,男,副教授,研究方向数据挖掘. E-mail: wenchuanyang@ -1-  匹配模式串 P1, P2, … , Pq 组成模

文档评论(0)

文档分享 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档