2014深圳杯 基因组组装模型要点.docVIP

  • 2
  • 0
  • 约 25页
  • 2016-03-19 发布于湖北
  • 举报
基因组组装模型 摘要 基因组序列拼接是生物信息学领域的核心问题,测序产生的读取片段reads经过序列拼接组装,生成基因组的碱基序列。新一代测序技术的快速发展,为生命科学重大问题的研究提供巨大帮助的同时,其数据海量、读取片段reads长度短、精确度低等特点也为全基因组序列拼接提出了相当严峻的挑战,而传统的序列拼接算法已不再适用。针对新一代测序的数据特点,研发能满足实际应用需要的基因组序列拼接算法,已经显得极为迫切。 在本问题中,有如下难点,比如大量重复片段的存在,reads 数据海量、长度较短及含有测序错误等。为了解决问题,我们在分析研究后,结合已有的技术, 提出了基于reads 引导的基因组序列拼接算法。该算法以整条reads为拼接的基本单位,分为reads拼接和contigs组装两个阶段,contigs是由reads拼接生成的长序列片段。reads 拼接阶段主要包括De Bruijn 图的建立、contigs 构建等,而contigs组装阶段则主要有contigs相对位置的确定、配对文库参数的校正、contigs连接及空隙gaps填充等过程,其中在确定contigs的相对位置时首次提出了配对数目数组PEN的概念,并用序列比对的方法消除或纠正contigs末端的碱基错误,提高了拼接精度。 关键词 基因组装算法 组序列拼接 read contigs de B

文档评论(0)

1亿VIP精品文档

相关文档