基因组组装 (1[精选].docVIP

  1. 1、本文档共27页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基因组组装 (1[精选]

PAGE \* MERGEFORMAT 26 基因组组装 摘要 快速和准确地获取生物体的遗传信息对生命科学研究具有重要的意义。本文建立了基因组组装的数学模型及算法,解决了基因组的组装问题。如何在保证组装序列的连续性、完整性和准确性的同时,设计出耗时短、内存小的组装算法是本文的关键。 针对问题一,本文主要是对重叠群(congtig)拼接问题进行了数学模型的建立,设计出一种新的重叠群(congtig)生成算法。该算法基于de?Bruijn图,将从多头测序转化为de?Bruijn图的欧拉路径问题,并采用启发式搜索,能快速的处理大量测序数据,而且能得到质量较高的重叠群,提高了基因组组装的准确性。 针对问题二,由于数据量庞大,所以本文先对原始数据进行分析与处理。首先对原始数据中重复片段进行过滤;另外,通过对原始数据中质量序列进行分析和研究,剔除质量偏差较大错误数据,使有效的读长进一步减少。其次,利用问题一的de?Bruijn图法对读长(read)进行拼接;最后,本文依据组装序列的连续性、完整性和准确性对组装效果进行评价,得到组装序列的匹配度和准确度都较高,达到较为理想的组装效果。 关键词:基因组组装 ? de?Bruijn图 ?? congtig拼接 贪婪图方法 启发式搜索 一 问题重述 快速和准确的获取生物体的遗传信息对生命科学研究具有重要意义。随着测序技术的不断发展,新一代测序技术产生的在高通量、低成本的同时也带来了错误率略有则加、读长较短等缺点。本题要求利用数学模型,设计算法解决如下几个问题: (1)测序过程中可能出现的个别碱基对识别错误; (2)基因组中存在重复片段; (3)快速的处理海量的序列比对。 二 问题分析 问题一是在新一代测序技术的测序策略的基础上,分析了基因组组装所面临的主要挑战,要求设计算法解决新一代测序技术带来的一些弊端。 1.新一代测序技术所得的reads长度较短,数量较多,不易发现reads之间的重叠关系。因此我们可以将reads转化成定长的k-mer,然后寻找k-mer之间的重叠关系。最后建立de Bruijin图,把短序列拼接问题转化为de Bruijin图中的欧拉路径问题。 2.个别碱基对识别错误,我们可以通过将多个reads放在一起对比来发现错误。 3.基因组中存在重复片段,重复片段可能导致拼接错误,或者导致不连续的较短contig出现。重叠片段类型主要有以下几种, 重复片段问题可以用如下问题解决:通过对比,可先将重复片段隔离开来,较高的覆盖度有利于重复片段的隔离,但是,较多的测序错误将不利于该过程的进行。如果重复片段比read 长,可利用pared end read 来解决;如果重复片段比read 短,那么该read又被称为 spanner,一个spanner 就是一个重复片段两端再加几个碱基组成。利用spanner 解决重复片段问题需要如下两个信息:一是重复片段两端配对的read ,这两个read 必须不相同;二是重复片段中的一个配对read ,只要知道一个即可,另一个配对read 可以不在重复片段中。通过分析已知的基因组,可获得有关重复片段的更多信息,如,重复片段的长度,重复片段的模式等。 问题二是提供全长约为120,000个碱基对的细菌人工染色体,采用新一代的Hiseq2000测序仪进行测序。附件提供了筛选好的定长read数据文件。使用第一题设计的基于de Bruijn图的组装算法对read数据进行组装,并对结果进行误差分析。 三 模型假设与符号说明 3.1 模型假设 3.2 符号说明 符 号 定 义 read 利用现有的测序技术,可按一定的测序策略获得长度约为50–100个碱基对的序列,称为读长; contig(C) 由read经过一定算法拼接产生3kb~10Mb以内的一些基因组片段; supercontig(S) 使用contig作为参考序列延伸,并进行合并得到更长的contig,即supercontig; quality(Q) 根据本题数据,每一个read都含有一个质量值,该值能反映该read的正确率。质量值越高,read的正确率越高。 k-mer 长度为k的一段DNA片段 四 数据分析与模型原理 4.1 数据分析 本题中,采用HiSeq2000测序技术产生的数据。HiSeq2000是目前通量最高的测序仪器,但产生的读长较短一般为100bp(本题read长度为88bp),使拼接问题变得更加复杂。 HiSeq2000测序仪测出的数据有如下特征: (1)read的副本较多,约为50-100; (2)基因组中有些位置被较多的read所覆盖,有些位置被较少的read覆盖,这 些位置是随机的,不可预测; 每一个read都含有一个质量值,该值能反映该read的

文档评论(0)

dart001 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档