生物序列拼接算法--phrap的并行化的研究.pdfVIP

下载本文档

15
0
约 7页
2017-08-16 发布于安徽
举报

生物序列拼接算法--phrap的并行化的研究.pdf

生物序列拼接算法一phrap的并行化研究。张法1刘志勇2乔香珍1刘玮1 (1中国科学院计算技术研究所2国家自然科学基金委员会) (￡!I茁!!￡!￡监：￡盟，≤!igf童；￡Q曼皇：她拉：gQ!：￡旦，g!aQ垡t坠￡超：堑：￡婴，韭生立里也丑垡盥生：蛆) 摘要生物序列的拼接是生物信息学中常见的问题，其中phrap算法是目前最流行的拼接算法之一。然而phrap算法在处理大规模数据时的运算速度以及对内存的庞大需求，已经成为需要迫切解决的问题。文章从提高算法的运行速度和降低内存的需求量入手，提出了一种并行phrap算法，并且在曙光3000高性能计算机上得到了实现，获得了较好的性能。关键字生物信息序列拼接phmp并行 1简介生物信息处理首先需要对基因组进行测序，以确定DNA分子的序列表达。由于当前的测序技术只能直接测得DNA序列上300～700个碱基。目前最流行的测序方法是鸟枪测序法(ShotgunSequencing)：一个DNA分子先经过克隆形成若干个拷贝，然后这些拷贝被打碎成若干条短的，可以直接测序的片段，每一条片段称作一个“read”。这些read之问存在着大小区域不等的重叠(overlap)区域。序列的拼接问题就是，如何通过这些read来重新构造出原始的序列【1】。对于字符a和序列A，我们假设万为口的互补字符，爿为A的逆互补序列，则就DNA 除(deletion)和置换(substitution)操作的次数称作编辑距离(editdistance)，记作巩4，占)。 DNA 定义2：DNA序列拼接问题(腩P sequence 段序列的集合，和一个误差￡，0≤gsl，则序列重构问题可描述为：寻找一条最短的序列 s，对于任意一个片段A，A∈，，在S中都能找到一个子序列丑，使得 min(d(A，B)，d(A，曰))≤占14l，其中lAl为片段A的长度。 common DNA序列拼接问题的本质是最短超串问题(shortest 拼接问题是一个NP完全问题。由于序列拼接问题的复杂性以及在生物信息学中的特殊性，人们对这一问题进行了深入的研究，并提出了许多序列拼接的启发式算法或近似算法。总的来说，序列拼接算法可以大致分成两类：一类是利用Hamiltonian path的方法，另一类是利用Eulerianpath的方法。个read看成一个结点，如果两个read之间存在有重叠over|ap，那么在相应的结点之间就存在有一条边。然后通过寻找经过每个read一次且仅一次的一条路径，就可以将序列拼接问题转化成Hamiltonian path问题。这种方法大致可以分为如下三步：1)找出序列片段问的重叠信息：2)将存在有重叠的片段组合起来，形成一个contig结构；3)根据片段中每个碱基的质量值，在contig结构中寻找一条最终序列，称作“Consensus”序列。国家自然科学基金和华大一曙光联合实验室资助早 )毕正利用Eulerian path方法的基本思想是【5]：将read切割成长度为k的小片段k-mers，并将所有的k-mers构造成一个DeBruijn图，然后在DeB,wijn图中寻找一条Eulerian路径。这样，序列拼接问题就转化为寻找一条Eulerian路径问题。由于这种算法正处在研究阶段，还没有基于该算法的应用程序，所以本文不再介绍。 TIGR[7]等等。然而这些算法在处理大规模序列的拼接时，不仅非常耗时，而且对内存的需求量是非常庞大的。以phrap为例，在对规模为100000条read的螺旋藻序列进行拼接时，所需要的内存空间将达到6G，这对于一些CLUSTER体系结构的高性能计算机而言，内存空间的需求是非常严峻的。以曙光3000商性能计算机为例，该机每个计算节点的内存仅为 2GB。因此，如何解决在对大规模数据进行处理时算法对内存的庞大需求就成为…个非常迫切的问题。列、Con

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

生物序列拼接算法--phrap的并行化的研究.pdfVIP