- 1、本文档共48页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基因组序列组装--理论与方法 北京大学生物信息中心 科学院北京基因组研究所 李松岗 lsg@pku.eud.cn 010两种测序策略 分级鸟枪法(BAC TO BAC) 基因组DNA 切成大片段 构建BAC文库 挑选 构建小片段shotgun文库 测序 组装BAC序列 组装基因组序列 全基因组鸟枪法 基因组DNA 构建不同长度shotgun文库 测序 组装基因组序列 基因组测序与组装示意图 基于BAC方法的 优缺点 优点:组装被局限在BAC的范围内,受重复序列影响小,对计算能力要求不高; 缺点:需要大量前期生物学研究工作,效率低,成本高。 全基因组鸟枪法优缺点 优点:不需要生物学前期准备,速度快,成本低; 缺点:组装是在全基因组范围内进行,数据量大,易产生错拼;对计算机软硬件要求均高。 对拼接软件的要求 能充分利用正反向测序的配对信息, 避免重复序列造成的错误拼接 能处理数以百万甚至千万计的数据 程序并行化 高效率比对 能够采用全基因组鸟枪法的关键技术进步: 毛细管测序仪的普遍使用 计算机能力的迅速提高 Shotgun法序列拼接 RePS: 全基因组鸟枪法测序数据组装软件包 RePS2的新流程图 识别重复序列的数学模型 重复序列识别: n次抽样,其中i次以上深度在j以上的概率Pij 设一次抽样深度在j以上和以下的概率分别为:Pj-,Pj+; n次抽样,其中i次以上深度在j以上则认为是repeat,此时犯两类错误的概率 为: 设repeat在基因组中的比例为b,出现概率为P,非repeat出现概率为P* ,则: MDR (数学定义的重复序列) 与 BDR (生物定义的重复序列) Contigs:127,550 (N50=6,688 bp) 插入片段长度的搭配 一般情况下,可采用如下设计: CAP3(1999) 特点: 删去read两端低质量部分; 利用质量数据,识别重叠序列;进行多序列比对,得到一致序列; 利用正反向数据纠正组装错误,构建scaffold。 使用情况: 仅使用数个BAC进行了测试。 果蝇组装软件(2000) 特点: 组装前数据预处理; 用数据库屏蔽重复序列; 采用类似BLAST的方法找出重叠部分; 选择不冲突的重叠构建contigs,识别重复序列边界; 用正反向信息构建scaffolds,填洞。 使用情况: 用于果蝇基因组组装。 用于人类基因组组装时的改进(2001) 构建contigs后,利用一个统计模型识别低拷贝重复序列; 采用两种方式利用已公布的人类基因组计划数据,即 1.把人类基因组计划数据分解成“人工reads”,进行组装; 2.利用人类基因组计划数据的定位对shotgun数据进行分组,然后组装。 ARACHNE(2002) 特点: 组装前通过多序列比对纠正测序错误; 考虑质量数据,对每对重叠reads打分; 通过分析reads重叠情况识别重复序列的边界,组装的contigs避免越过边界; 识别重复序列contigs; 构建scaffolds,填补空洞。 使用情况:使用数个物种,包括人21、22染色体数据进行了检验。 The Phusion Assembler(2003) 特点: 输入数据包括正反向信息,插入片段长度在2-200kb之间; 组装前先对数据进行分组,然后并行处理; 使用phrap进行组装,组装过程中利用正反向信息对contig进行延伸或打断; 根据重叠合并contigs; 利用正反向信息构建scaffolds。 使用情况: 用于小鼠基因组,7.5x,2.6Gb,479 scaffolds 欧拉图方法(2001) 特点: 放弃传统方法,用图论解决序列组装问题; 每个read作为一个顶点,两个reads之间有重叠则有边连接。组装问题就化为找一条仅通过每个顶点一次的通路——Hamilton问题。 把重复序列视为粘在一起的边,可把上述图简化,问题变为找仅通过每条边一次的通路——Euler问题。 具体步骤 纠正测序错误 把read分为长为 L 的字。如果一个字属于M个以上reads,称为坚固的;否则称为弱的。纠正错误的算法,就是要通过最少的改变,使弱的字变为坚固的。 通过这种方法,纠正了97.7%的测序错误,把每个read的平均错误率从4.8降到了0.11。 构建de Bruijn图 顶点:长为L-1的字 边:长为L的字,代表一条从前一个L-1字到后一个L-1字的有向边 这样,就把测序数据转换成了de Bruijn图,组装问题变成了找Euler路径的问题。这一问题已有解法。 使用情况:这一方法成功地用于一个多重复序列的细菌基因组。
您可能关注的文档
- 基于模式知识库和EPSS的教学设计自动化系统.ppt
- 基于概念的过程教学设计路径和策略.ppt
- 基于沙箱的主动防御系统.ppt
- 基于测试的JAVA开发案例.ppt
- 基于流程的执行力.ppt
- 基于消息传递的并行计算.ppt
- 基于消费者回收的废旧家电逆向物流.ppt
- 基于消费者洞察的广告策略中山大学吴柏林老师绝密资料.ppt
- 基于灰色系统理论的建模方法介绍.pptx
- 基于物联网技术智能变电站建设.ppt
- 2024年江西省高考政治试卷真题(含答案逐题解析).pdf
- 2025年四川省新高考八省适应性联考模拟演练(二)物理试卷(含答案详解).pdf
- 2025年四川省新高考八省适应性联考模拟演练(二)地理试卷(含答案详解).pdf
- 2024年内蒙通辽市中考化学试卷(含答案逐题解析).docx
- 2024年四川省攀枝花市中考化学试卷真题(含答案详解).docx
- (一模)长春市2025届高三质量监测(一)化学试卷(含答案).pdf
- 2024年安徽省高考政治试卷(含答案逐题解析).pdf
- (一模)长春市2025届高三质量监测(一)生物试卷(含答案).pdf
- 2024年湖南省高考政治试卷真题(含答案逐题解析).docx
- 2024年安徽省高考政治试卷(含答案逐题解析).docx
最近下载
- 2024届高考写作指导:“劳动之苦与劳动之美”审题指导及优秀范文两篇精品.docx
- 部编统编1张凯+快乐读书吧《非洲民间故事》导读课公开课教案教学设计.docx VIP
- 糖尿病性酮症酸中毒课件.pptx
- 科学教育出版社七年级上册劳动实践手册教案.docx VIP
- 《当代中文》第一课--您贵姓.ppt VIP
- 部编版五年级语文上册第六单元质量评价试卷(含答案).pdf VIP
- 第三章 地球的面貌-2024-2025学年七年级地理上册单元速记清单(湘教版2024).docx VIP
- 九年级上学期家长会.11.ppt省名师优质课赛课获奖课件市赛课一等奖课件.pptx
- 国开(电大)《现代汉语专题》形考作业1-6参考答案(下载可编辑).pdf
- 2.6 直角三角形(原卷版).docx VIP
文档评论(0)