面向新一代测序术的拼接算法研究.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
面向新一代测序术的拼接算法研究

摘要 面向新一代测序技术的拼接算法研究 摘要 在基因组的测序中,DNA序列的拼接是核心问题之一。在2005年之前,DNA测序主 2005年,第二代高通量测序技术以其低廉的成本和巨大的通量大大推动了基因组测序的应 用与发展。第二代高通量测序技术产生的DNA片段长度非常短(最短的只有35bp左右)且 通量非常高(一次实验能产生几亿到几十亿条DNA序列)。在基因组的从头测序(出J『7D叼 高通量和短序列的要求,需要开发新的DNA短序列比对算法。 本文首先系统研究了国际上最新的基于第二代测序技术的短序列拼接算法,并提出了基 于同源基因组比对的整合方法。该方法将不同拼接方法所产生的comig利用一个同源的参考 基冈组整合在一起,构成更长的DNA序列,更好的重现被测基因组。我们使用整合算法对 幽门螺旋杆菌测序短片段的不同拼接结果(SSAKE和velvet的拼接结果)进行整合,结果 表明,该算法有效地将contig的平均长度提高到2.9倍,最长的contig长度也提高到1.97 倍,提高了拼接的准确性,最大程度的扩展了拼接结果。 本文提出了基于短片段间重叠信息的比对算法Umap和MA0。Umap算法引入核心片段逐 步扩展延伸的基本思想,把短片段间的重叠信息加入到短片段比对算法中,为短片段在参考 序列上的定位提供一个有力的支持信息。Umap算法能够快速定位在参考基冈组上只比对到 一个位置的短片段,并以这些短片段为种子,向两边延伸扩展并定位剩余短片段。然而u珊ap 的弱点在于多重定位短片段的定位可靠性无法衡量。为解决这个问题,我们在Umap基础上 ShortReadswith 提出了基于高通量测序短片段的比对算法MA0(Mapping Overlap),解 决了多重定位短片段在参考基因组上的定位可靠性问题。MAO首先搜索所有可以在参考基因 组上定位的短片段,然后依据短片段间的重叠信息,借鉴短片段拼接算法中扩展种子序列的 贪婪算法的核心思想,将那些认为是错误定位的短片段排除,得到短片段在参考基因组上的 准确定位信息。对于上述两个算法都使用模拟和真实的测序短片段进行验证,结果表明,Umap 有效地将短片段的匹配比例从45%提高到70%,把错误匹配的短片段比例从12%降低剑0(与 PASS比较)。MA0有效地识别出37%的唯一比对短片段是错误匹配,48%的多重比对(在参考 序列上的比对位置不止一个)短片段是错误匹配。 ’ 最后我们分别使用系统发生分析方法和序列比对的方法分析了微生物群落组成情况。其 中系统发生分析方法通过使用B1ast进行比对和使用MEGA4.0建立系统发育树从而研究微生 物群落的组成(分析对象为16SrRNA和26SrRNA)。基于序列比对的方法能直接提取微生物 群落中的总DNA进行测序,跳过了偏向性较高的PCR扩增过程,样本制备简单且无偏向性,既 可以发现高丰度的物种,也可以发现低丰度的物种,因此得到的数据在统计学上更接近菌群 的真实物种构成。在序列比对的方法中,我们分别使用MA0和SoAP对一个模拟的微生物群落 和其模拟的测序短片段集进行分析,比对的结果很好的印证了模拟微生物群落的构成情况。 关键词:高通量测序,短片段,重叠信息,微生物群落,MAO,Umap 东南大学博士学位论文 Researchon theNext of AssemblyA190rithm ,一、 .● 一 o rn 1 1 UeneratlOn l 3eqUenClngeCnnO上OgV Abstract ofthecore inDNA isone Assembly

文档评论(0)

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档