基因组序列拼接.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
这样,一个解P∈P(s)的邻域可以定义为N(P)={rshift(i,j)(P)|1≤ij≤n)}∪{ lshift(i,j)(P)|1≤ji≤n}. 4.局部搜索算法 通过计算从可行解P到其邻居P’∈N(P)的过程中的?overlap,并采用“first-fit的搜索策略,我们在当前解的邻域范围内搜索第一个更好的解,并转移到该解,因此可以通过迭代的方法改善解的质量,并实现潜在的纠错功能。 例如,在γshift(i,j)操作下将p移至p’, ? overlap=overlap(si-1,si+1) +overlap(sj,sj+1) +overlap(si,sj+1)-overlap(si-1,si)- overlap(si,si+1)- overlap(sj,sj+1)。 当?overlap0时,p’比p更好,则由p转移到p’ 此外,对给定的解P={s1’,s2’….Sn’},内部的元素均包含前趋和后继。但是,头元 素仅有后继而尾元素仅有前驱。在算法中,为了消除头尾元素差异,我们将排列的头尾 元素连结起来并使用局部搜索方法寻找最优的“Loop”超串。接着在overlap最小的地方切分该环状超串,最终还原成一条线性超串。 5.局部极值点的处理 当经过以read为单元的搜索后,可以获得一个当前邻域内的局部最优解{γ1…,γk1,γk1+1, …,γk2,γk2+1,…,γk3γkm}。它对应集合s上的一个superstring。该解对应的reads的排列中,任意相邻两个reads间的overlop关系薄弱,即overlap(γi,γi+1)M(其中,M是一个足够小的正整数,1≤i ≤ n)。 例如: 如果overlap(rkl,rkI+1)M, overlap(rk2,rk2+1)M,…, overlap(rkm,rkm+1)M, 令fragment集合F={f1,f2,f3….,fm},fi即为在序rki-1,…,rki下对应的一个子超串。 则在此薄弱处将superstring分割若干“sub-superstrings.它们构成新的fragment集合F。 此时,我们将F作为当前最短超串求解的子串集合,可以获得一个新的是最短公共超串(SCS)问题的实例。我们继续应用前述的Overlap定义和邻域的定义。最终得到reads集合上的一个局部最优解P’。 6.获得“consensus segments” 在处理对“contiguous segments”的识别过程中,有关键的两个步骤: (1)在求得的超串中识别“weak joins”. (2)在“weak joins”位置,获得contiguous segments. 7. Repeat的识别策略 为了鉴别潜在的false joins,我们必须分析所有的包含不一致的前缀或者后缀的fragment。具体的 fragment γ2和γ3具有不一致的后缀,即至少存在两个fragments r2和r3,且满足overlap(r1,r2)M1 , overlap(r1,r3)M1,但overlap(r2,r3)M2和overlap(r3,r2)M2。 因为fragment是对基因组DNA序列的随机采样获得的,包含显著的大量fragment的区域很可能是repeat。因此,如果满足以下两个条件,我们就认为该contiguous segment是重复的: 1)其首部或者尾部分别是包含不一致的前缀和后缀的fragment; 2)其覆盖度远远大于测序的平均覆盖度。否则,我们就认为其为unique区域. 原型系统试验 试验环境 1)原始基因组数据是从GenBank中随机抽取并下载的; 2)read序列是原始基因组序列中的随机子串,长度为500到700个碱基对; 3)read序列随机的分布于原始基因组数据互补的两链中的任意一条. 将Basic LSA用于不同的数据中,得到 的数据的三个特点: 试验结果 我们在没有双端测信息的约束下,从生成的CONTIG的数量和准确性两个角度比较了Basic LSA.PHRAR.CAP3的性能。 原序列名 序列长度 覆盖度 系统 Contigs总长 Contigs数目 长contigs数目(50k) Contigs平均长度 错误contigs数目 错误contigs总长(bp) AE007872 542869 7.5 CAP3 541465 21 3 28763 0 0 PHRAP 540588

文档评论(0)

xiexie2012 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档