基因组序列组装理论与方法简介.pptxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基因组序列组装理论与方法简介

两种测序策略分级鸟枪法(BAC TO BAC)基因组DNA切成大片段 构建BAC文库挑选 构建小片段shotgun文库 测序组装BAC序列 组装基因组序列全基因组鸟枪法 基因组DNA构建不同长度shotgun文库 测序 组装基因组序列基因组测序与组装示意图基于BAC方法的 优缺点优点:组装被局限在BAC的范围内,受重复序列影响小,对计算能力要求不高;缺点:需要大量前期生物学研究工作,效率低,成本高。全基因组鸟枪法优缺点优点:不需要生物学前期准备,速度快,成本低;缺点:组装是在全基因组范围内进行,数据量大,易产生错拼;对计算机软硬件要求均高。对拼接软件的要求能充分利用正反向测序的配对信息, 避免重复序列造成的错误拼接能处理数以百万甚至千万计的数据 程序并行化 高效率比对 能够采用全基因组鸟枪法的关键技术进步: 毛细管测序仪的普遍使用 计算机能力的迅速提高Hierarchical Shotgun (HS) … the sequencing of the human genome is likely to be the only large sequencing project carried to completion by the methods described in this issue. Maynard V. Olson , The maps: Clone by clone by clone , Nature 409, 816 - 818 (2001) Whole Genome Shotgun (WGS)SingleStrandedRegionLow Base QualitySequenceGap Shotgun法序列拼接ConsensusMis-Assembly(Inverted)术语鸟枪法测序数据的组装鸟枪法文库:目标基因组一定长度随机片段克隆的集合。正反向测序对: 从同一个克隆片段两端分别测序所得到的一对序列。.插入片段长度: 克隆载体中插入的外源DNA片段长度。片段连接群(contig):用识别互相重叠的方法对测序数据进行拼接的结果。.Scaffold: 用正反向测序对连接的非重叠片段连接群。 LW-洞:由于没有测序数据覆盖而在组装结果中留下的洞。重复序列分析覆盖度: 基因组被测序数据覆盖的次数。重复数: 一段DNA序列在基因组中出现的次数。深度:一段DNA序列在鸟枪法测序数据集中出现次数。例如一个转座子在基因组中出现N次,测序数据集的覆盖度为C, 则这个转座子的平均深度为N?C。20-mer 重复序列:任何深度超过为该数据集确定的重复序列标准的20-bpDNA片段。是数学定义的重复序列。重复序列洞: 由于屏蔽重复序列而在组装结果中留下的洞。组装结果的评价标准N50 大小: 把组装出的contigs 或 scaffolds从大到小排列,当其累计长度刚刚超过全部组装序列总长度一半时,最后一个contig或scaffold的大小。单碱基错误率: 与参考序列比较后发现的小尺度上的不同所占的比例。所谓小尺度,在这里通常指小于标准测序长度,即500bp。实际上常常只是几个碱基。错误组装的Contig: 测序数据组装中出现的错误。由定义,它涉及的片段一般大于500-bp。包括与参考序列相比,插入、删除,以及在方向和次序上不同的片段。错误组装的Scaffold:把非重叠contig连接在一起时出现的错误。包括嵌套,错误的方向和顺序等。genome sequence of size G, with 4 repeatsshotgun library constructionO(G2) pair-wise comparisonR = 3 segments w/ repeat-terminationone Euler Path solution“overlap-layout-consensus” algorithm exploresR! = exponential number of possible solutionsShotgun Sequencing Assembler ConceptsRePS: 全基因组鸟枪法测序数据组装软件包特点:通过屏蔽在鸟枪法测序数据中发现的重复序列来完成组装。RePS的流程图RePS2的新流程图识别重复序列的数学模型重复序列识别:若repeat有m个拷贝,且已知随机序列覆盖深度为0,1,2……的概率:g0 , g1 , g2 ,……,则一次抽样repeat覆盖深度为0,1,2,……的概率P0, P1, P2,……为:n次抽样,其中i次以上深度在j以上的概率Pij设一次抽样深度在j以上和以下的概率分别为:Pj-,Pj+;n次抽样,其中i次以上深度在j

文档评论(0)

peili2018 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档