- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
概率算法求解的模式匹配问题
概率算法求解的模式匹配问题
摘要:在长度为N的主串S中查找是否存在长度为M的模式串T,叫模式匹配问题。对于N和M均非常大的情况,概率算法求解此问题的效率比朴素算法和KMP算法要高。通过比较两个长度均为M的串的关联数是否相同,来确定这两个串是否相同。如果某它们的关联数不同,则这两个串一定不同;如果它们的关联数相同,则它们不同的概率很小,可忽略认为它们相同,也可将它们按位比较以便准确判断它们是否相同。本文计算长度为M的串的关联数的算法复杂度为O(1)。
关键词:概率算法 模式匹配 关联数 主串 模式串 时间复杂度
中图分类号:TP312 文献标识码:A 文章编号:1007-9416(2013)05-0154-02
1 前言
给定的符号模式是否出现在是一个很长的文本中,通常将此问题称为模式匹配。分析DNA序列和其他各种基因相关项目的结果,涉及的算法学上的核心问题是模式匹配问题。求解模式匹配问题的常用算法有朴素算法和KMP算法。朴素算法的效率很低,时间复杂度为O(n*m)[1-5]。KMP算法仅当主串与模式间存在许多“部分匹配”的情况下才能显示出它的高效率O(n+m)[1-5]。本文使用概率算法求解模式匹配问题,此算法特别适用于模式串非常长的情形。
2 模式匹配问题的概率算法
2.1 算法的基本思想
模式匹配问题具体描述为,在长度为N的主串S中查找是否存在长度为M的模式串T。概率算法求解模式匹配问题的基本思想是,将主串S中每个长度为M的符号串关联一个数,然后随着算法穿过S,依次考虑每M个符号的块所关联的数与模式串T所关联的数是否相同。若某相邻M个符号所关联的数与模式串T所关联的数不相同,则它们一定不同;如果它们所关联的数相同,则它们不相同的概率很小,完全可将其忽略,认为它们是相同的。[6]为了使概率算法的时间复杂度尽可能小,每M个符号的块所关联的数必须满足以下条
件:(1)要比M短,理想情况下为logM。(2)计算这个数所需的时间不能超过O(M),理想情况下为常量时间。可见,简单地将M个符号的块翻译成数字是不能满足这两个条件的。
我们可以随机产生一个长度为logM的素数Prim,用M个符号的块直接翻译成的数字除以Prim,所得的余数就是M个符号的块所关联的数。可以看出,这样所求的关联数满足上述条件(1),因为M个符号的块直接翻译成的数字除以素数Prim的余数位于0到Prim-1之间,所以它的长度不超过Prim的长度logM。下面重点看一下它是否满足上述条件(2)。
假定主串S和模式串T都是由26个英文字母组成的,将它们分别看作一个很长的二十六进制数,每位数的可能取值分别A、B、…、Z,其中A相当于数值0、Z相当于数值25。一般情况下,计算M位数除以某个素数Prim的余数所需的时间,和M有关。但是,可以利用已计算出余数的M位数,来计算下一个M位数除以Prim的余数。为此,需从主串S的最后一个字符开始,即首次取出的M位数是S的倒数第M到倒数第1个字符组成的,第2次取出的M位数是S的倒数第(M+1)到倒数第2个字符组成的。例如,考虑S=“ACEFSDSECWU YTWVBNMCCXZDEFRGGLKPOIU…..”,令T的长度M=8,假设我们已经到达第5个位置,数SDSECWUY除以随机产生的素数prim的余数已经计算出来,接下来要计算FSDSECWU除以prim的余数。因为FSDSECWU=FAAAAAAA+(SDSECWUY-Y)÷26,所以FSDSECWU除以Prim的余数可通过FAAAAAAA除以Prim的余数和SDSECWU除以Prim的余数经过简单加减运算而求得。FAAAAAAA中的实际上是F×267,这样的数共有25个,所以可提前将它们除以Prim的余数计算出来并存放在一个数组中。而SDSECWU除以Prim的余数可通过SDSECWUY除以prim的余数、此余数的最后一位数字及商的最后一位数字经过简单算术计算而求得。可见,计算M个数字的数除以Prim的余数可在常数时间内完成。
总上所述,随机产生一个长度为LogM的素数,将每M个字符的块直接翻译成一个数,然后用这个数除以素数所得余数,就是M个字符的块所关联的数。而且此关联数的计算可在常数时间内完成。
2.2 算法的具体步骤
根据2.1中概率算法的基本思想,这里给出概率算法的具体实现过程。
在长度为N的主串S中查找是否存在长度为M的模式串T的概率算法的具体步骤如下:(1)随机产生一个含LogM位数字的二十六进制素数,将其按位存放在数组prim中;
(2)计算模式串T直接翻译成的数除以prim的余数,并存放于数组tmod中;
(3)定义整型变量s_location,并令s_loc
您可能关注的文档
最近下载
- 发那科机器人DCS双重安全性检查功能说明书FANUC.pdf VIP
- 北京市昌平区第一中学2024-2025学年七年级上学期期中考试语文试卷(含答案).docx VIP
- 数字化智能工厂AI大模型数智平台建设方案.pptx VIP
- 肝性脑病ppt课件ppt课件.pptx VIP
- 定位器原理及故障处理课件.ppt VIP
- 旅游大类《服务礼仪》 填空题试卷一.docx VIP
- 小学部编版古诗词必备题库(含答案解析).pdf
- 五年级上册数学课件-数学好玩-图形中的规律(8)-北师大版 20张.ppt VIP
- 旅游大类《服务礼仪》简答题试卷一.docx VIP
- 重点项目施工组织专项方案高压旋喷桩内插型钢.doc VIP
原创力文档


文档评论(0)