2014深圳杯 基因组组装模型.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基因组组装模型 摘要 基因组序列拼接是生物信息学领域的核心问题,测序产生的读取片段reads经过序列拼接组装,生成基因组的碱基序列。新一代测序技术的快速发展,为生命科学重大问题的研究提供巨大帮助的同时,其数据海量、读取片段reads长度短、精确度低等特点也为全基因组序列拼接提出了相当严峻的挑战,而传统的序列拼接算法已不再适用。针对新一代测序的数据特点,研发能满足实际应用需要的基因组序列拼接算法,已经显得极为迫切。 在本问题中,有如下难点,比如大量重复片段的存在,reads 数据海量、长度较短及含有测序错误等。为了解决问题,我们在分析研究后,结合已有的技术, 提出了基于reads 引导的基因组序列拼接算法。该算法以整条reads为拼接的基本单位,分为reads拼接和contigs组装两个阶段,contigs是由reads拼接生成的长序列片段。reads 拼接阶段主要包括De Bruijn 图的建立、contigs 构建等,而contigs组装阶段则主要有contigs相对位置的确定、配对文库参数的校正、contigs连接及空隙gaps填充等过程,其中在确定contigs的相对位置时首次提出了配对数目数组PEN的概念,并用序列比对的方法消除或纠正contigs末端的碱基错误,提高了拼接精度。 关键词 基因组装算法 组序列拼接 read contigs de Bruijn图 一 问题重述 基因组包含了整个生物体的遗传信息,这些信息通常由组成基因组的DNA 或RNA分子中碱基对的排列顺序所决定。获得目标生物基因组的序列信息,进而比较全面地揭示基因组的复杂性和多样性,成为生命科学领域的重要研究内容。 确定基因组碱基对序列的过程称为测序(sequencing)。从20世纪70年代到现在,测序技术正向着高通量、低成本的方向发展。通常的做法是,将基因组复制若干份,无规律地分断成短片段后进行测序,然后寻找测得的不同短片段序列之间的重合部分,并利用这些信息进行组装。例如,若有两个短片段序列分别为 ATACCTTGCTAGCGT GCTAGCGTAGGTCTGA 则有可能基因组序列中包含有ATACCTTGCTAGCGTAGGTCTGA 这一段。当然,由于技术的限制和实际情况的复杂性,最终组装得到的序列与真实基因组序列之间仍可能存在差异,甚至只能得到若干条无法进一步连接起来的序列。 基因组组装软件的核心是某个组装算法,一个好的算法应具备组装效果好、时间短、内存小等特点。新一代测序技术在高通量、低成本的同时也带来了错误率略有增加、读长较短等缺点,现有算法的性能还有较大的改善空间。 问题一:试建立数学模型,设计算法并编制程序,将读长序列组装成基因组。你的算法和程序应能较好地解决测序中可能出现的个别碱基对识别错误、基因组中存在重复片段等复杂情况。 问题二:现有一个全长约为120,000 个碱基对的细菌人工染色体(BAC),采用Hiseq2000 测序仪进行测序,测序策略以及数据格式的简要说明见附录一和附录二,测得的读长数据见附录三,测序深度(sequencing depth)约为70×,即基因组每个位置平均被测到约70 次。试利用你的算法和程序进行组装,并使之具有良好的组装效果。 二 问题分析 本题主要任务是将读长序列组装成基因组。其主要难点在于:基因组碱基对数量庞大,测序仪器测得的reads长度有限,且reads较短,不易发现reads之间的重叠关系,很难建立重叠图;Hiseq2000 在测序过程中,一些reads 错误率较高,不宜直接拿来组装,需要过滤掉;基因在打断过程中出现的重复片段在连接过程中会出现错误。 传统Sanger测序的reads 较长(1000bp),数据量较少,精度较高,测序速度较慢,所有的组装算法都利用reads之间的重叠,通过公共路径的方法解决拼接问题。而新一代测试数据在提高测序速度、降低测序成本的同时,产生reads较短、覆盖度更高、序列精度较低,为此这种以read为中心的方法面临海量计算的困境。 目前测序数据用于从头测序的短序列拼接组装算法普遍采用de Bruijn 图数据结构。de Bruijn图框架为处理高覆盖、短序列提供了很好思路,该框架在欧拉遍历方法的基础上针对新一代测序数据的特点进行了改进。本文运用de Bruijn提出了基于reads引导的基因组序列拼接算法,以整条reads为拼接的基本单位,并率先在拼接算法中提出了基于信息累计和数据特征相结合的评分方法。该算法分为reads拼接和contigs组装两个阶段,reads 拼接阶段

文档评论(0)

wuyuetian + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档