基于be_Bruij图基因组装算法.docxVIP

  • 3
  • 0
  • 约2.58万字
  • 约 61页
  • 2017-09-01 发布于安徽
  • 举报
基于be Bruijn图的基因组装算法 摘要 快速和准确地或其生物提的遗传信息对生命科学研究具有重要的意义。测序技术从第一代到现在普遍应用的第二代以及正在兴起的第三代,能直接读取的碱基对序列长度远小于基因组长度。所以测序之前DNA分子要经过复制若干份、随机打断成短片段。要获得整个DNA片段,需要把这些片段利用重合部分信息组装连接。如何在保证组装序列的连续性、完整性和准确性的同时设计耗时短、内存小的组装算法是本题的关键。 新型测序技术使以往的基于重叠图的拼接算法不能胜任,本文中,提出了一种新的重叠群生成算法。该算法基于de bruijn图,将从多头测序转化成在de bruijn图的欧拉路径问题,并采用启发式搜索,能够快速地处理海量测序数据,而且能得到质量较高的重叠群。 本文详细叙述了算法的逻辑原理以及实现过程。确定k-mer长度后,将这些k-mer存入de bruijn图中。de bruijn图用哈希表储存,发现重叠关系式并不需要所有read之间进行两两比对,只要寻找de bruijn图或子图中的一条欧拉路径就可以找到contig。以初始k-mer为节点,采用贪婪策略获得质量较高的后继k-mer,保证了contig的高质量拼接,从而还原基因组。 本算法较为成功的弥补了新一代测序方法带来的一些弊端,在有限时间内对大数据的处理存在较大优势。但由于一些客观原因,对一些测序误差没有做到有效控

文档评论(0)

1亿VIP精品文档

相关文档