基于beBruij图的基因组装算法.docVIP

下载本文档

4
0
约3.03万字
约 44页
2016-03-30 发布于湖北
举报

基于beBruij图的基因组装算法.doc

1.参赛队选择的题号信息与编号 A B C 选题 ∨ 阅卷编号注：选题在对应的题号下打:∨。阅卷编号由阅卷组老师在阅卷前填写。 2. 参赛队员信息队员1 队员2 队员3 姓名陈英豪张彦军杨哲学号 2012211192 2012211046 2012211050 学院经济管理学院经济管理学院经济管理学院专业信息管理与信息系统工程管理工程管理年级 2012级 2012级 2012级签名注：学院填写学校规定统一的各个简称（如:通信学院、理学院、自动化学院等）。年级为入学年级（如2013级等），队员签名（签名一定要手写）表示遵守下面的承诺书。承诺书我们完全明白，在竞赛开始后参赛队员不能以任何方式（包括电话、电子邮件、网上咨询等）与队外的任何人（包括指导教师）研究、讨论与赛题有关的问题。我们知道，抄袭别人的成果是违反竞赛章程和参赛规则的，如果引用别人的成果或其他公开的资料（包括网上查到的资料），必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。我们郑重承诺，严格遵守竞赛章程和参赛规则，以保证竞赛的公正、基于be Bruijn图的基因组装算法摘要快速和准确地或其生物提的遗传信息对生命科学研究具有重要的意义。测序技术从第一代到现在普遍应用的第二代以及正在兴起的第三代，能直接读取的碱基对序列长度远小于基因组长度。所以测序之前DNA分子要经过复制若干份、随机打断成短片段。要获得整个DNA片段，需要把这些片段利用重合部分信息组装连接。如何在保证组装序列的连续性、完整性和准确性的同时设计耗时短、内存小的组装算法是本题的关键。新型测序技术使以往的基于重叠图的拼接算法不能胜任，本文中，提出了一种新的重叠群生成算法。该算法基于de bruijn图，将从多头测序转化成在de bruijn图的欧拉路径问题，并采用启发式搜索，能够快速地处理海量测序数据，而且能得到质量较高的重叠群。本文详细叙述了算法的逻辑原理以及实现过程。确定k-mer长度后，将这些k-mer存入de bruijn图中。de bruijn图用哈希表储存，发现重叠关系式并不需要所有read之间进行两两比对，只要寻找de bruijn图或子图中的一条欧拉路径就可以找到contig。以初始k-mer为节点，采用贪婪策略获得质量较高的后继k-mer，保证了contig的高质量拼接，从而还原基因组。本算法较为成功的弥补了新一代测序方法带来的一些弊端，在有限时间内对大数据的处理存在较大优势。但由于一些客观原因，对一些测序误差没有做到有效控制。最终在第二问的实践中也获得了质量较高的contig序列。关键词：de Bruijn图贪婪图方法启发式搜索一、问题的重述快速和准确的获取生物体的遗传信息对生命科学研究具有重要意义。随着测序技术的不断发展，新一代测序技术产生的在高通量、低成本的同时也带来了错误率略有则加、读长较短等缺点。本题要求利用数学模型，设计算法解决如下几个问题：（1）测序过程中可能出现的个别碱基对识别错误；（2）基因组中存在重复片段；（3）快速的处理海量的序列比对。二、问题的分析本题是基于新一代测序技术的基因组装算法问题，要求设计算法针对性的解决新一代测序技术带来的一些弊端。 2.1 read长度较短，数量较多——de bruijn图新一代测序技术所得的read长度较短，数量较多，不易发现read之间的重叠关系。可以将read转化成定长的k-mer，然后寻找k-mer之间的重叠关系。然后建立de bruijn图，把短序列拼接问题转化为de bruijn图中的欧拉路径问题。 2.2 个别碱基对识别错误——多重对比纠错通过将多个read放在一起比对来发现错误，如图2.1-1所示。图中通过途中4条read比对，可发现read3中的一个碱基错误（read3的第五个碱基） read1 AACA TGCA TGCT TGAC read1 AACA TGCA TGCT TGAC …… reda2 TGCA TGCT TGAC ACAG …… read3 TGCT CGAC ACAG CGTT …… read4 TGAC ACAG CGTT …… 图2.1-1 2.3基因组中存在大量重复片段重复片段可能导致拼接错误，或者导致不连续的较短contig出现。重叠片段类型主要有以下几种，如图2.3-1所示重复片段问题可以用如下问题解决：通过对比，可先将重复片段隔离开

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

基于beBruij图的基因组装算法.docVIP