- 1、本文档共3页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
??
?
??
基于后缀数组的分布式串匹配算法的论文
计算机理论论文
?
??
?
?
?
?
?
?
???
?
?
?
?
?
?
摘要:文章提出的uniformedsoffixarraysass谊n算法通过采取均匀的后级分配方式,使各个处理器可以独立地构造后缀数组,并提出通过播送最长后缀长度(maxsuffixlen)来降低处理段间匹配时的通信复杂度。算法在构造后级数组时的平均复杂度为o((n/p)(109109(n/p))),通信复杂度为0(1)。通过实验分析得出,在(n/p)m的情况下,usaa算法可以在保持计算复杂度的同时大大降低在构造后缀数组过程中的通信消耗。其中n,m分别为文本串和模式申的长度,p为处理器数。
?关键词:后缀数组分布式存储串匹配
?1引言
键,在分布式环境下加速后缀数组的构造需要充分考虑到通信对算法性能的影响。串匹配问题是计算机科学中研究得最广泛的问题之一,在文字编辑与处理、图像处理、信息检索、分子生物学等领域都有很广泛的应用。本文解决的是分布式存储环境下的精确串匹配问题。在串匹配的许多实际应用中一个确定的文本常常被查询很多次(比如对非常长的基因序列的查询)。针对这种情况,manber.u和e.w.myers提出建立后缀数组(suffixarrays)〔1〕来提高查询的性能,而后缀数组最大的不足是它的构造时间过长。因此一直以来,如何快速有效地构造后缀数组成了提高基于后缀数组的串匹配算法性能的关
2usaa算法
假设n,m为文本串和模式串的长度,p为处理器数,算法设计思路如下:
(1)将长为n的文本串a均匀划分成互不重盛的p段,分布于处理器。~(p一l)中,且使相邻的文本段分布在相邻的处理器中,显然每个处理器中局部文本段的长度为〔n/p〕。
(2)除了处理器o外,其它每个处理器利用kmp算法计算分配到自己的文本串的头个字符与模式串,基金项目:国家自然科学基金重点项目的匹配信息。如果存在匹配情况,就向相邻的前一个处理器发送最大匹配后缀长度maxsuffixlen,否则就发送一个负数。每个处理器可独立地计算和发送该值,所以这一步的计算复杂度为o(m),通信复杂度为o(1)。
(3)处理器1~(p-l)接收前一个处理器的信息。
(4)利用manber.u和e.w.myers在文献〔〔1〕中的算法各处理器并行地构造局部文本段的后缀数组。
(5)利用manber.u和e.w.myers在文献〔1〕中的算法各处理器并行地进行模式申的匹配。算法的计算复杂度为o((n/p(109109(n/p))),通信复杂度为0(1),大大降低了通信复杂度。
3实验结果及分析
我们在基于分布存储的32节点hprx2600高性能机群系统上测试了上述算法,比较了usaa和目前理论值最好的mmsortlz〕算法之间的性能,其计算复杂度为,通信复杂度为。
图1给出了当m一16、p~2时,n的取值对算法执行时间的影响。从图中看出当时,由于n、p的取值成了影响算法复杂度的主项,因此在实际应用中usaa算法比mmsort算法表现要好。
图2给出了当n变大时,usaa算法和mmsort算法的通信时间比较。可以看出,随着文本串的规模变大,由于处理器间需要进行的通信量增加,mmsort算法的通信时间有明显的上升,而usaa算法的上升幅度要显著小于mmsort。
4结论
本文提出的usaa算法通过采取均匀的后缀分配方式来降低处理段间匹配时的通信消耗,在(n/p)m的情况下使算法在保持计算复杂度的同时大大降低了通信复杂度。通过实验结果可以看到,usaa算法很好地解决了在分布式存储环境下降低后级数组构造中的通信复杂度的问题。
参考文献
[1]u.manber,g.myers.suffixarrays:anewmethodforon-linestringsearehes[c〕.inproeeedingsofthe
lstannualacm一siamsymposiumon压seretealgorithms.1990:319一327.
[2]kitajima,j.p.,navarro,g.afastdistributedsuffixarraygenerationalgorithm〔c」.stringproeessingandinformationretrievalsymposium,1999sept,1999:22-24,97一104.
?
-全文完-
您可能关注的文档
- 白酒发展趋势分析-产业报告.docx
- 大豆蛋白肉项目商业计划书模板.docx
- 创客教育让小学信息技术课堂充盈活力.docx
- 公共云存储服务数据安全及隐私保护技术综述.docx
- 2024年浙江省高考英语试卷(含答案解析)+听力音频+听力原文.docx
- 2024年江苏省高考英语试卷(含答案解析)+听力音频+听力原文.docx
- 2024年山东省高考英语试卷(含答案解析)+听力音频+听力原文.docx
- 2024年浙江省高考英语试卷(含答案解析)+听力音频+听力原文.docx
- 2024年安徽省高考英语试卷(含答案解析)+听力音频+听力原文.docx
- 2024年福建省高考英语试卷(含答案解析)+听力音频+听力原文.docx
- 2024年湖南省高考英语试卷(含答案解析)+听力音频+听力原文.docx
- 2024年江西省高考英语试卷(含答案解析)+听力音频+听力原文.docx
- 2024年安徽省高考英语试卷(含答案解析)+听力音频+听力原文.docx
- 2024年福建省高考英语试卷(含答案解析)+听力音频+听力原文.docx
- 2024年广东省高考英语试卷(含答案解析)+听力音频+听力原文.docx
- 2024年河北省高考英语试卷(含答案解析)+听力音频+听力原文.docx
- 2024年河南省高考英语试卷(含答案解析)+听力音频.docx
- 2024年湖北省高考英语试卷(含答案解析)+听力音频+听力原文.docx
- 2024年湖南省高考英语试卷(含答案解析)+听力音频+听力原文.docx
- 2024年江苏省高考英语试卷(含答案解析)+听力音频+听力原文.docx
最近下载
- Morgan Stanley Fixed-2025年中国经济展望 论通缩之持久战-111868053.pdf VIP
- 帝奥电梯JXW.VVVF-F5(DA5000)电气原理图纸.pdf
- 建筑工程施工项目商务管理手册(124页,中建).doc
- XF∕T 1340-2016 火警和应急救援分级.pdf
- 【归纳】酸和碱的中和反应知识点归纳归纳总结(超详细)与练习.docx
- 2024年宜宾市大学生乡村医生专项计划招聘工作(111人)招聘笔试备考试题及答案解析.docx VIP
- 石漠化施工组织设计终稿.doc
- 离婚协议书word文档下载(2024版).docx VIP
- 化学社团活动总结3篇(趣味化学社团活动总结).docx VIP
- 山东省淄博市2023-2024学年高二上学期期末教学质量检测试题 化学 含答案.docx
文档评论(0)