生物序列拼接算法--phrap的并行化的研究.pdfVIP

  • 15
  • 0
  • 约 7页
  • 2017-08-16 发布于安徽
  • 举报

生物序列拼接算法--phrap的并行化的研究.pdf

生物序列拼接算法一phrap的并行化研究。 张法1刘志勇2乔香珍1刘玮1 (1中国科学院计算技术研究所2国家自然科学基金委员会) (£!I茁!!£!£监:£盟,≤!igf童;£Q曼皇:她拉:gQ!:£旦,g!aQ垡t坠£超:堑:£婴,韭生立里也丑垡盥生:蛆) 摘要生物序列的拼接是生物信息学中常见的问题,其中phrap算法是目前最流行的拼接 算法之一。然而phrap算法在处理大规模数据时的运算速度以及对内存的庞大需求,已经成 为需要迫切解决的问题。文章从提高算法的运行速度和降低内存的需求量入手,提出了一种 并行phrap算法,并且在曙光3000高性能计算机上得到了实现,获得了较好的性能。 关键字生物信息序列拼接phmp并行 1简介 生物信息处理首先需要对基因组进行测序,以确定DNA分子的序列表达。由于当前的 测序技术只能直接测得DNA序列上300~700个碱基。目前最流行的测序方法是鸟枪测 序法(ShotgunSequencing):一个DNA分子先经过克隆形成若干个拷贝,然后这些拷贝被 打碎成若干条短的,可以直接测序的片段,每一条片段称作一个“read”。这些read之问存 在着大小区域不等的重叠(overlap)区域。序列的拼接问题就是,如何通过这些read来重 新构造出原始的序列【1】。 对于字符a和序列A,我们假设万为口的互补字符,爿为A的逆互补序列,则就DNA 除(deletion)和置换(substitution)操作的次数称作编辑距离(editdistance),记作巩4,占)。 DNA 定义2:DNA序列拼接问题(腩P sequence 段序列的集合,和一个误差£,0≤gsl,则序列重构问题可描述为:寻找一条最短的序列 s,对于任意一个片段A,A∈,,在S中都能找到一个子序列丑,使得 min(d(A,B),d(A,曰))≤占14l,其中lAl为片段A的长度。 common DNA序列拼接问题的本质是最短超串问题(shortest 拼接问题是一个NP完全问题。 由于序列拼接问题的复杂性以及在生物信息学中的特殊性,人们对这一问题进行了深入 的研究,并提出了许多序列拼接的启发式算法或近似算法。总的来说,序列拼接算法可以大 致分成两类:一类是利用Hamiltonian path的方法,另一类是利用Eulerianpath的方法。 个read看成一个结点,如果两个read之间存在有重叠over|ap,那么在相应的结点之间就存 在有一条边。然后通过寻找经过每个read一次且仅一次的一条路径,就可以将序列拼接问 题转化成Hamiltonian path问题。这种方法大致可以分为如下三步:1)找出序列片段问的 重叠信息:2)将存在有重叠的片段组合起来,形成一个contig结构;3)根据片段中每个碱 基的质量值,在contig结构中寻找一条最终序列,称作“Consensus”序列。 国家自然科学基金和华大一曙光联合实验室资助 早 )毕正 利用Eulerian path方法的基本思想是【5]:将read切割成长度为k的小片段k-mers,并 将所有的k-mers构造成一个DeBruijn图,然后在DeB,wijn图中寻找一条Eulerian路径。 这样,序列拼接问题就转化为寻找一条Eulerian路径问题。由于这种算法正处在研究阶段, 还没有基于该算法的应用程序,所以本文不再介绍。 TIGR[7]等等。然而这些算法在处理大规模序列的拼接时,不仅非常耗时,而且对内存的需 求量是非常庞大的。以phrap为例,在对规模为100000条read的螺旋藻序列进行拼接时, 所需要的内存空间将达到6G,这对于一些CLUSTER体系结构的高性能计算机而言,内存 空间的需求是非常严峻的。以曙光3000商性能计算机为例,该机每个计算节点的内存仅为 2GB。因此,如何解决在对大规模数据进行处理时算法对内存的庞大需求就成为…个非常迫 切的问题。 列、Con

文档评论(0)

1亿VIP精品文档

相关文档