高通量测序数据中Split read映射方法探究.docVIP

高通量测序数据中Split read映射方法探究.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
高通量测序数据中Split read映射方法探究

高通量测序数据中Split read映射方法探究   摘要:高通量测序技术的快速发展与广泛应用为计算机科学带来了新的挑战,read的映射问题是其中非常重要的一个部分。Split read是一类特殊的read,其出现通常是由基因组中的结构变异造成的。这类read在映射中不再保持连续序列的形式,而是包含了一定长度的空位,因此具有较高的映射难度。提出一种利用双末端测序数据的映射结果来指导split read映射的方法,这种方法可以使split read的映射难度不再与其所包含的空位数量相关,从而降低了映射过程中的搜索空间,提高映射效率。 关键词:split read; 映射; 高通量测序; 生物信息学 中图分类号:TP391 文献标识码:A文章编号:2095-2163(2013)06-0030-03 0引言 人类基因组计划的完成为人类基因组的研究提供了一套参考基因组序列,大大地简化了人类个体基因组的序列研究,因为不同人类个体基因组序列之间有着极高的相似性,现在的研究主要专注于个体基因组序列与参考基因组序列的差异,这大大地简化了研究的过程。而高通量测序技术的不断发展,则为人类基因组研究提供了有力数据支持。为了利用高通量测序数据,需要将上亿的测序短序列(read)映射到参考基因组序列上,这些read当中大部分可以以连续序列的形式被映射,但是仍有一部分read由于个体基因组序列与参考基因组序列的差异,会在映射中包含一段空位,这样的read称为split read,其映射相比于第一类read是更为困难的。Split read的映射往往可以显示个体基因组中变异区域的序列信息,对研究更快速、准确的split read映射方法有着重要的意义。 1基本概念 1.1高通量测序数据 高通量测序是一种测序DNA序列的技术。在测序过程中,将完整的样本DNA序列打碎,从中筛选出满足特定长度(通常为数百bp)的片段,然后在每个片段的一端或两端各读取一段长度为数十至数百bp的序列。这些读取出的序列长度通常远远小于被测样本DNA序列的长度,但是高通量测序技术可以同时读取大量这样的短序列,使得短序列总长度达到样本DNA长度的数倍至数十倍,从而使获得样本DNA序列成为可能。 1.2Read与split read 在高通量测序中,从打碎的DNA片段上读取出来的短序列称为read。Read是被测DNA序列的一个短片段,单个的read序列长度远远短于被测DNA序列的长度,但是通过将大量read映射到参考基因组序列的方式,就可以获得被测DNA的序列内容,如图1所示。测序时所读取的read是一段连续的序列,但是由于DNA结构变异的存在,一些read在映射结果中不再保持连续的形式,而是包含了空位,这样的read称为split read。 1.3双末端测序 在高通量测序过程中,从打碎的DNA片段的两端读取序列的方法称为双末端测序。双末端测序中获得的读取自同一片段的一对read称为一个read pair。理论上,如果被测DNA序列与参考基因组序列完全相同,read pair被映射到参考基因组之后,其中的两个read之间的距离与被测时DNA片段的长度应当是相同的。但是由于被测DNA与参考基因组序列存在差异,特别是由于结构变异的存在,read pair映射后其一对read之间的距离会与被测的DNA片段长度产生明显的差异。 2Deletion对附近read 与read pair映射所造成的影响Deletion是一种常见的结构变异形式,表现为被测DNA序列相比参考基因组序列缺失了部分序列。由于这种变异的存在,其附近的read与read pair在映射过程中会发生异常,如图2所示。从图2中可以看出,由于deletion的存在(黑色短线段),跨过deletion的read pair(左)在映射后两个read之间的距离要长于被测时两个read之间的距离,这个距离的差异恰好是deletion的长度。而跨过deletion边界的read(右)在映射时则会包含与deletion长度相同的一段空位,形成split read。 3利用read pair映射分析指导split read映射的方法目前的read映射方法出于运行效率的考虑,都会限制映射结果中所允许的空位数量与长度[1-3]。有一些利用双末端测序数据特性而特别为split read映射所设计的映射方法,利用read pair中一个映射较好的read作为基点,在临近的一段区间为另一个映射效果不好或者无法连续映射的read进行允许较多空位的映射[4]。这样的方法存在着映射效果与搜索空间相关,映射难度大,效率低等问题,如图3所示。 为了改进这些不足,本文提出一种利用del

文档评论(0)

docman126 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:7042123103000003

1亿VIP精品文档

相关文档