基于多线程技术dBM改进算法.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于多线程技术dBM改进算法

基于多线程技术dBM改进算法    (华南农业大学, 广州 510642)   ??   摘要:在分析基于压缩的DNA模式匹配算法d-BM的基础上,采用多线程技术,设计并实现MultipleOF-dBM算法和DoubleOF-dBM算法。实验结果表明,新算法的匹配速度比d-BM算法有所提高。   ?す丶?词:生物信息学; 压缩模式匹配; d-BM算法; 多线程技术   ?ぶ型挤掷嗪牛?TP311文献标志码:A   文章编号:1001-?B3695(2008)11-?B3299-?B03   ??   Multithread-based improvement of d-BM algorithm   ??   LIU Shao-peng, LIN Pi-yuan, ZHANG Li-xia, LIU Ji-ping   ??   (South China Agricultural University, Guangzhou 510642, China)   ??   Abstract:After analysis of the d-BM algorithm for DNA compressed pattern matching, two new algorithms, MultipleOF-dBM and DoubleOF-dBM were designed and implemented by using multithreads. The experimental results show that the efficiency of the new algorithms is higher than the old one.   ??Key words:bioinformatics; compressed pattern matching; d-BM; multithread technology   ?お?   0引言??   生物信息学(bioinformatics)[1,2]实质是利用计算机科学和网络技术来解决生物学问题。其中DNA序列比对[3,4]是生物信息学最基本、最重要的操作之一,通过它可以发现生物序列的功能、结构和进化信息。DNA序列比对是传统的模式匹配;而直接利用压缩后的DNA数据进行序列比对则是特殊的模式匹配,即DNA压缩模式匹配[5],它无须解压缩操作,在减少DNA序列存储空间的同时,极大地提高匹配检索效率。??   经典的字符串模式匹配算法有Knuth-Morris-Pratt算法[6,7]和Boyer-Moore算法[8,9]等。Boyer-Moore算法的匹配速度很快,与同类算法相比,表现更为优秀。其算法思想是:a)根据模式串构造坏字符移动表和好后缀移动表;b)从右至左扫描文本串,直到找出所有匹配位置。??   由于DNA序列具有特殊性(它仅包括A、T、C、G四个字母,字母表大小为4),而Boyer-Moore算法的匹配速度与模式的字母表大小是紧密联系的(字母表越大,速度就越快;字母表越小,速度越慢),使得Boyer-Moore算法难以在DNA序列的模式匹配中发挥其高效性。??   Chen Lei等人[10]设计了d-BM压缩模式匹配算法,通过对DNA序列和模式进行压缩,扩大模式的字母表,再利用Boyer-Moore算法进行匹配。该算法的匹配速度明显比Boyer-Moore算法快。??   本文采用多线程技术,在d-BM算法的基础上改进,设计并实现MultipleOF-dBM算法和DoubleOF-dBM算法,实验结果表明新算法的匹配速度比d-BM算法有所提高。??   1d-BM压缩模式匹配算法??   1??1d-BM算法思想??   d-BM算法思想:a)采用简单01码压缩算法[11],将DNA序列压缩为一个Unicode字符串,DNA模式压缩为八个Unicode字符串,以及相关的信息。b)八个压缩DNA模式串分别与压缩DNA串进行一次BM(即Boyer-Moore算法)匹配,再根据压缩后DNA模式串的特殊字符和补位信息,对匹配位置进行检验,确保其合法性。??   1??2d-BM算法描述??    压缩DNA模式表示为五元组:〈Pf, Af, Pm, Pb, Ab〉。其中:Pf是第一个unicode字符;Af是Pf中无效的比特位数;Pb是最后一个Unicode字符;Ab是Pb中无效的比特位数;Pm是除去Pf和Pb后的Unicode字符串,其长度为m′。压缩DNA序列表示为三元组:〈Tf, Tb, A〉。其中:Tb是最后一个Unicode字符;A是Tb中无效的比特位数;Tf是除去Tb后的Unicode字符串,长度为n′。??   

文档评论(0)

189****7685 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档