- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一个基于高物理覆盖度正反向关系的scaffold构建方法.doc
[发明名称]
一个基于高物理覆盖度正反向关系的scaffold构建方法
[技术领域]
本发明涉及一个基于高物理覆盖度的正反向关系的scaffold构建方法,属于基因工程技术领域。
[技术背景]
基因组学的研究是对生物全套遗产信息进行比较分析,能在总体上把握这些信息的机制和功能,然而,基因组学研究的最基础的一个环节是如何获得生物的全套基因组序列。而scaffold构建方法一直是de novo 拼接流程中十分重要的一环,方法的优劣直接影响到最后基因组序列的最终结果。自从人类基因组计划完成以来,基因组测序技术得到了长足的发展。在第一代Sanger测序方法的基础上,以Solexa, Solid和454为代表的第二代测序技术迅速发展并开始大规模投入使用,第二代测序技术的特点是通量高,低成本,测序错误率低的优点,但其测序读长要明显较第一代测序技术短的多. 因此原先根据传统的Sanger测序法(”霰弹法”)的scaffold构建策略几乎完全不能胜任.因此迫切需要根据第二代测序技术的自身特点,发明一整套完全适用于第二代测序技术平台的全自动的scaffold构建方法,使之能胜任对几乎所有物种基因组的拼接任务。因此我们的新拼接方法重点考虑了新技术的高物理覆盖度,和短序列读长,以及允许有多个高覆盖插入长度并存的特点,并依据这些特点作出合理应对。
[发明内容]
本发明的目的是提出一种基于高物理覆盖度正反向的scaffold构建方法,使之完全适应第二代测序平台数据对基因组拼接的要求. 在分析了第二代测序技术获得成对reads信息,利用由高物理覆盖成对reads和可变插入长度梯度,解决第二代测序技术de novo拼接的scaffold构建,为第二代测序技术的全面高效地推广应用奠定基础。
基本原理:
我们的scaffold的构建流程由已映射正反向短序列的contig开始,利用多条正反向关系计算contig间空位的平均长度,并标记权重。我们假设利用一条的正反向获得的contig片段之间的空位大小Xi服从期望为μ,方差为σ^2的正态分布N( ? , σ^2 ), 则通过N条正反向获得的空位大小的平均值服从N(?, ?…2/N)分布,因此高覆盖度的正反向信息可以大大提高scaffod构建中contig间空位的大小估计。我们计算所有正反向连接关系的contig间的空位大小,可以获得一个连接完整的scaffold图,然后采用基本的解图算法, 把图转化为基本的线性结构,来完成scaffold的构建任务。
基本流程
构建scaffold的基本步骤
如图1所示:
首先, 把正反向映射到contig片段上
其次, 根据映射的正反向关系, 构建scaffold图
再次, 进行scaffld图的简化, 其有三个主要子步骤:
a.重复片段的屏蔽.
b.子图的线性化.
c.重复片段的恢复.
具体步骤
正反向映射
利用正反向映射程序进行映射.
图的构建
利用已经映射到contig上的正反向信息,找到有连接关系的contig, 根据每个正反向的距离关系,计算contig之间的空位大小的平均值,作为空位大小的一个估计.
图的简化
图的简化过程实质是一个从图上提取contig路径的的过程. 其存在两个难点: (1) 重复片段. (2)交错连接. 这两者都会导致图的分叉. 因此在实际过程中,我们针对这两个问题设计了三个特别的解决策略.
a.重复片段的屏蔽
我们认为重复序列是表现在scaffold图上会有多个接入/接出的contig, 如果一个contig如果在同一方向上连接到多个有交叠的contig,那么我们认为这是一个重复contig. 如图3所示, 其中AB, EF 分别有交叠,用阴影表示, R认定为重复,需要屏蔽.
所有的重复片段都首先需要屏蔽.
b.子图的线性化
我们把所有的contig片段根据他们的空位长度放入子图的合适位置,如果任意两个片段之间没有很显著的交叠,我们根据他们的位置关系转化为一个线性结构.如图4所示, 已知有AB, ED, AE, EC的距离连接关系,我们可以直接得到线性结构关系为AEBCD, 并且重新计算AE, EB, BC,CD见空位的大小.
c.重复片段的恢复
最后, 我们可以恢复一部分被屏蔽的重复片段,当这个重复片段恰好满足位于两个唯一片段之间.如图5所示, 若片段A, D是满足唯一片段条件, 则他们之间早先被屏蔽的重复片段R就可以直接恢复.
附图说明
[图.1] scaffold 构建的基本流程
[图.2] 利用正反向关系构建scaffold图示意图
[图.3] 重复片段的屏蔽示意图
您可能关注的文档
最近下载
- 《校园危机事件应对与处理》专题讲座.pptx VIP
- 一次性使用中心静脉导管套装产品技术要求标准2024年.docx VIP
- 《工程伦理》课程教学大纲.docx VIP
- GB50217-2018 电力工程电缆设计标准.docx VIP
- (高清版)-B-T 17799.2-2023 电磁兼容 通用标准 第2部分:工业环境中的抗扰度标准.pdf VIP
- 2025山西航空产业集团有限公司校园招聘86人(第二批)笔试参考题库附答案解析.docx VIP
- 屋顶光伏发电项目施工方案.doc
- 四川省2024年普通高校对口招生统一考试语文真题(含答案解析).docx VIP
- 企业发展五年规划目录.PDF VIP
- 2025年电信人工智能学习考试题库(含答案).pdf VIP
文档评论(0)