- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于位运算的最长公共子串算法
[摘要]
本文来自于参考文献[1]。
本文描述了一个对于确定有限字符集的基于位运算的最长公共子串算法。该算法在普通计算机上运行效率明显高于常规的动态算法。其时间复杂度为。其中w表示我们在w位的整数上进行位操作。
[问题介绍]
最长公共子串(Longest-common-subsequence , LCS)问题,是求两个字符串A和B的公共子串的最大可能长度。例如,字符集S={’A’,’C’,’G’,’T’},’GCTAT’和’CGATTA’的最大公共子串(以下简称LCS)为’GTT’,其长度为3。
在这里定义一些变量:
A,B分别是两个给定的串。
S为A、B串所涉及的字符集。
[常规动态规划算法]
设L[i , j]等于A[1..i] , B[1..j]的LCS.
则有L[i,j] = 1 + L[i-1 , j-1] 如果 (A[i] = B[j])
Max(L[i-1 , j] , L[i , j-1]) 其他
复杂度为O(|A| * |B|)
[基于位运算的动态规划算法]
根据上面的动态规划算法,状态函数L具有如下性质:
L[i-1,j-1] ≤ L[i,j-1] , L[i-1,j] ≤ L[i,j]
| L[i,j]-L[i-1,j-1] | ≤ 1
对于L的每一行,相邻的两个元素的最多只相差1。这样一来,我们就可以用一个二进制的矩阵描述出L : ()
#bits
9 0 0 0 1 1 0 0 0 1 0 1 1 1 1 1 1 | T string B
9 0 1 0 0 1 0 0 0 1 0 1 1 1 1 1 1 | T
8 0 0 1 0 0 0 1 0 0 0 1 1 1 1 1 1 | C
7 0 0 0 0 1 0 0 0 1 0 0 1 1 1 1 1 | T - Row[11]
7 1 0 0 0 0 0 0 1 0 0 0 1 1 1 1 1 | A - Row[10]
7 1 0 0 0 0 1 0 0 0 0 0 1 1 1 1 1 | G
6 0 0 0 0 0 1 0 1 0 0 0 0 1 1 1 1 | A
5 0 0 0 0 0 0 0 1 0 0 0 0 1 1 1 1 | A
5 0 0 0 0 1 0 0 0 0 0 0 0 1 1 1 1 | T
4 0 0 0 0 0 0 0 0 1 0 0 0 0 1 1 1 | T
3 0 0 0 0 0 0 0 0 0 0 1 0 0 0 1 1 | C
3 1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 1 | G
2 0 0 0 0 0 0 0 1 0 0 0 0 0 1 0 0 | A
1 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 | T
_________________________________. matrix Mij
String A: G T C T T A C A T C C G T T C G
这里,我们将串A从右往左写,串B从下往上写。Row[i]中的1的个数总是和Row[i-1]中的1的个数一样多或者恰好多一个。串A和串B的LCS即为最上面一行Row[|B|]中1的个数。
字符比较串表
这里我们定义一组称为字符比较串的二进制串。分别是字符集中的每一个字符与串A的比较结果(相同为1,不同为0)。
A: G T C T T A C A T C C G T T C G
‘A’-string: 0 0 0 0 0 1 0 1 0 0 0 0 0 0 0 0
‘C’-string: 0 0 1 0 0 0 1 0 0 1 1 0 0 0 1 0
‘G’-string: 1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 1
‘T’-string: 0 1 0 1 1 0 0 0 1 0 0 0 1 1 0 0
预先计算这个字符比较串表,时间复杂度为O(|S|*|A|)。对于一个确定的字符集,时间复杂度为O(|A|)。对于一个不确定的字符集,最坏情况为O(|A|*|B|)。如果字符集较小,|S||B|,预处理的时间复杂度可以被忽略。
矩阵M
为了计算Row[i],我们需要用到字符比较串表中的B[i]-string。以Row[10]到Row[11]为例,我们来研究如何计算出Row[i]。
下面是Row[10] , 以及B[10]-string(‘T’-string). 按照R
原创力文档


文档评论(0)