基因组组装算法研究(已审核).docxVIP

  • 21
  • 0
  • 约1.47万字
  • 约 21页
  • 2017-02-22 发布于四川
  • 举报
基因组组装算法研究(已审核)

基因组组装算法研究 摘要 基因组测序是生物信息学的核心,有着极其重要的应用价值。近些年来,新的测序技术大量涌现,与传统的Sanger方法相比,这些方法产生的read(由测序仪直接测得的 DNA 片段)长度更短,数量更多,覆盖率更大。然而,传统的拼接算法并不适用于利用短 read 进行拼接,新的拼接算法在拼接效果上仍有待提高。 本文首先介绍了传统的基因组拼接所用的贪婪算法和overlap-layout-consensus 算法,这两种算法仅适用用于第一代测序技术所得的reads,并不适用于第二代基因测序。对于第二代测序技术所得的reads,可以建立de bruijn 图算法的数学模型,然后编写程序,组装基因片段。利用第二代测序技术可以在一次实验中获得高通量短 read,然而第二代测序技术并不完美,由于在测序前要通过 PCR 手段对待测片段进行扩增,因此增加了测序的错误率。因此,本文利用HiTEC纠错算法对de bruijn 图算法进行优化。 另外,本文还利用了基于概率模型的基因组从头测序算法克服了原有拼接算法过度依赖碱基片段之间重叠信息的缺陷,创造性地将 DNA 拼接过程抽象为二阶离散马尔可夫过程,与此同时,每一条碱基片段被抽象为系统中的一个状态。 关键词:贪婪算法,OLC算法,de bruijn 图算法,HiTEC纠错算法 一、问题重述 遗传信息是生物遗传与进化的主要研究依据。能否快速和准确地获取生物体的遗传信息对于生命科学研是否有重大发现具有重要意义。对每个生物体来说,基因组包含了整个生物体的遗传信息,这些信息通常由组成基因组的DNA或RNA分子中碱基对的排列顺序所决定。获得目标生物基因组的序列信息,进而比较全面地揭示基因组的复杂性和多样性,成为生命科学领域的重要研究内容。 确定基因组碱基对序列的过程称为测序。测序技术始于20世纪70年代,伴随着人类基因组计划的实施而突飞猛进。从第一代到现在普遍应用的第二代,以及近年来正在兴起的第三代,测序技术正向着高通量、低成本的方向发展。现有的测序技术中,可按一定的测序策略获得长度约为50–100个碱基对的序列,称为读长(reads)。基因组复制份数约为50–100。基因组组装软件可根据得到的所有读长组装成基因组,这些软件的核心是某个组装算法。常用的组装算法主要基于OLC(Overlap/Layout/Consensus)方法、贪婪图方法、de Bruijn图方法等尽管如此,目前能直接读取的碱基对序列长度远小于基因组序列长度,因此需要利用一定的方法将测序得到的短片段序列组装成更长的序列。 一个好的算法应具备组装效果好、时间短、内存小等特点。新一代测序技术在高通量、低成本的同时也带来了错误率略有增加、读长较短等缺点,现有算法的性能还有较大的改善空间。 本题要求我们尝试建立模型,由程序计算得到基因组的长须组装。算法与程序要求能有效地解决在测序过程中出现的碱基对识别错误,或则基因中出现重复片段的情况。 将所建立的模型检查运行后,本题要求我们进一步对其进行探究。针对一个全长约为120,000个碱基对的细菌人工染色体(BAC),采用Hiseq2000测序仪进行测序,结合附录中的测序策略、数据格式以及读长数据,在测序长度约为70×的情况下,对上述所建立的模型与算法程序进行组装验算。 二、问题分析 本题是基于新一代测序技术的基因组装算法问题,要求设计算法针对性的解决新一代测序技术带来的一些弊端。 2.1 read长度较短,数量较多——de bruijn图 新一代测序技术所得的read长度较短,数量较多,不易发现read之间的重叠关系。可以将read转化成定长的k-mer,然后寻找k-mer之间的重叠关系。然后建立de bruijn图,把短序列拼接问题转化为de bruijn图中的欧拉路径问题。 2.2 个别碱基对识别错误——多重对比纠错 通过将多个read放在一起比对来发现错误,如图1所示 。 图中通过途中4条read比对,可发现read3中的一个碱基错误(read3的第五个碱基) 图 图 SEQ 图 \* ARABIC 1 4条read对比图 read1 AACA TGCA TGCT TGAC …… reda2 TGCA TGCT TGAC ACAG …… read3 TGCT CGAC ACAG CGTT …… read4 TGAC ACAG CGTT …… 2.3基因组中存在大量重复片段 重复片段可能导致拼接错误,或者导致不连续的较短contig出现。重叠片段类型主要有以下几种

文档评论(0)

1亿VIP精品文档

相关文档