基因组序列组装的理论与方法(简介).ppt

基因组序列组装的理论与方法(简介).ppt

  1. 1、本文档共48页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基因组序列组装 --理论与方法 北京大学生物信息中心 科学院北京基因组研究所 李松岗 lsg@pku.eud.cn 010两种测序策略 分级鸟枪法(BAC TO BAC) 基因组DNA 切成大片段 构建BAC文库 挑选 构建小片段shotgun文库 测序 组装BAC序列 组装基因组序列 全基因组鸟枪法 基因组DNA 构建不同长度shotgun文库 测序 组装基因组序列 基因组测序与组装示意图 基于BAC方法的 优缺点 优点:组装被局限在BAC的范围内,受重复序列影响小,对计算能力要求不高; 缺点:需要大量前期生物学研究工作,效率低,成本高。 全基因组鸟枪法优缺点 优点:不需要生物学前期准备,速度快,成本低; 缺点:组装是在全基因组范围内进行,数据量大,易产生错拼;对计算机软硬件要求均高。 对拼接软件的要求 能充分利用正反向测序的配对信息, 避免重复序列造成的错误拼接 能处理数以百万甚至千万计的数据 程序并行化 高效率比对 能够采用全基因组鸟枪法的关键技术进步: 毛细管测序仪的普遍使用 计算机能力的迅速提高 Shotgun法序列拼接 RePS: 全基因组鸟枪法 测序数据组装软件包 RePS2的新流程图 识别重复序列的数学模型 重复序列识别: n次抽样,其中i次以上 深度在j以上的概率Pij 设一次抽样深度在j以上和以下的概率分别为:Pj-,Pj+; n次抽样,其中i次以上深度在j以上则认为是repeat,此时犯两类错误的概率 为: 设repeat在基因组中的比例为b,出现概率为P,非repeat出现概率为P* ,则: MDR (数学定义的重复序列) 与 BDR (生物定义的重复序列) Contigs:127,550 (N50=6,688 bp) 插入片段长度的搭配 一般情况下,可采用如下设计: CAP3(1999) 特点: 删去read两端低质量部分; 利用质量数据,识别重叠序列;进行多序列比对,得到一致序列; 利用正反向数据纠正组装错误,构建scaffold。 使用情况: 仅使用数个BAC进行了测试。 果蝇组装软件(2000) 特点: 组装前数据预处理; 用数据库屏蔽重复序列; 采用类似BLAST的方法找出重叠部分; 选择不冲突的重叠构建contigs,识别重复序列边界; 用正反向信息构建scaffolds,填洞。 使用情况: 用于果蝇基因组组装。 用于人类基因组组装时的改进(2001) 构建contigs后,利用一个统计模型识别低拷贝重复序列; 采用两种方式利用已公布的人类基因组计划数据,即 1.把人类基因组计划数据分解成“人工reads”,进行组装; 2.利用人类基因组计划数据的定位对shotgun数据进行分组,然后组装。 ARACHNE(2002) 特点: 组装前通过多序列比对纠正测序错误; 考虑质量数据,对每对重叠reads打分; 通过分析reads重叠情况识别重复序列的边界,组装的contigs避免越过边界; 识别重复序列contigs; 构建scaffolds,填补空洞。 使用情况:使用数个物种,包括人21、22染色体数据进行了检验。 The Phusion Assembler(2003) 特点: 输入数据包括正反向信息,插入片段长度在2-200kb之间; 组装前先对数据进行分组,然后并行处理; 使用phrap进行组装,组装过程中利用正反向信息对contig进行延伸或打断; 根据重叠合并contigs; 利用正反向信息构建scaffolds。 使用情况: 用于小鼠基因组,7.5x,2.6Gb,479 scaffolds 欧拉图方法(2001) 特点: 放弃传统方法,用图论解决序列组装问题; 每个read作为一个顶点,两个reads之间有重叠则有边连接。组装问题就化为找一条仅通过每个顶点一次的通路——Hamilton问题。 把重复序列视为粘在一起的边,可把上述图简化,问题变为找仅通过每条边一次的通路——Euler问题。 具体步骤 纠正测序错误 把read分为长为 L 的字。如果一个字属于M个以上reads,称为坚固的;否则称为弱的。纠正错误的算法,就是要通过最少的改变,使弱的字变为坚固的。 通过这种方法,纠正了97.7%的测序错误,把每个read的平均错误率从4.8降到了0.11。 构建de Bruijn图 顶点:长为L-1的字 边:长为L的字,代表一条从前一个L-1字到后一个L-1字的有向边 这样,就把测序数据转换成了de Bruijn图,组装问题变成了找Euler路径的问题。这一问题已有解法。 使用情况:这一方法成功地用于一个多重复序列的细菌基因组。

文档评论(0)

junjun37473 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档