网站大量收购闲置独家精品文档,联系QQ:2885784924

集合f的字符串相当于待组装的序列片段.ppt

  1. 1、本文档共26页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
集合f的字符串相当于待组装的序列片段

第四节 DNA片段组装 1、片段组装问题 定义: 给定一组取自特定字母表的字符串集合F,寻找一个最短的字符串s,使得F中的每一个字符串都是s的一个连续子串。这里,集合F的字符串相当于待组装的序列片段,而s则是序列片段组装的结果。 2、序列片段组装模型 序列片段组装过程: 三个步骤 (1)首先进行序列片段的两两比较,确定可能的片段之间的覆盖(或者重叠); (2)确定所有片段统一的覆盖模式,即确定各个序列片段的相对位置; (3)最后确定片段组装结果,即确定目标序列。 (1)最短公共超串模型 (2)重建模型 (3)多重连续区模型 3、序列片段覆盖图 覆盖多图OM(F)是一个有向图 其中图中的各个顶点代表F的一个字符串 如果f、g?F,并且f 的t个字符的后缀与g的t个字符的前缀相同,则图中存在一条权值为t的有向边。 产生超串的路径 设P是OM(P)中的一条路径,A是该路径上对应片段的集合,P有?A?-1条边。 将根据 P 所得到的超串记为S(P)。 A的总长度、路径权值及超串的长度关系如下: ‖A‖ = w(P) + ?S(P)? ‖A‖= ?a?A?a? 是A中序列的总长度 w(P)是路径P权值的和 任何一条路径对应于一个公共超串 一条路径是否通过图中所有的顶点? — 哈密顿路径 ? A=F 的共同超串 ?S(P)? = ‖F‖ - w(P) ‖F‖是常数 ?S(P)?取最小等价于对w(P)取最大 求最短的公共超串等价于取权值最大的哈密顿路径 最短超串是否总是对应于一条路径呢? 答案是肯定的 定理3.3 设F是一个无子串的串集合,则对于F的任何一个公共的超串S,在OM(F)中存在一条哈密顿路径P,使得S(P)是S的子序列。(与子串有区别) 推论3.1 设F是一个无子串的串集合,如果S是F最短的公共超串,则在OM(F)中有一条哈密顿路径P,使得S=S(P)。 引理3.2 两个等价的无子串的串集合相同。 定理3.4 设F是一个串集合,则存在一个唯一的无子串集合G,使G等价于F。 根据上述的各个定理,片段组装的一般过程如下: (1)对于给定的片段集合F,首先去掉那些是子串的序列,形成新的片段集合F’; (2)根据F’生成覆盖多图; (3)求权值最高的哈密顿路径,由此得到最短的公共超串; (4)最终形成组装结果。 但是,如何在一个覆盖多图中找出权值最高的哈密顿路径呢? 4、贪婪算法 简化覆盖多图,对每一对顶点仅考虑权值最大的边,而去掉其它的边。 称经过处理后的新图为F的覆盖图,记为OG(F)。 贪婪算法的核心思想就是逐步加入满足哈密顿路径条件的最大权值的边 无回路 节点出度为1 节点入度为1 5、非循环子图方法 利用非循环子图求解哈密顿路径 (生成节点的拓扑 排序) 定理3.5 设S是一个目标序列,F是一个覆盖S的无子串序列片段集合,F的连接强度大于等于t(t?0),则覆盖多图OM(F,t)中有一条哈密顿路径P,使超串S(P)= S。 定理3.6 设F是由目标序列S产生的一个序列片段集合,如果覆盖图OG(F,t)有一回路,则在S中存在一个长度至少为t的重复。 定理3.7 设S是一个目标序列,F是一个覆盖S的无子串序列片段集合,F的连接强度大于等于t(t?0),如果S没有大于等于t长度的重复,则OG(F,t)具有一条唯一的哈密顿路径P,并且S(P)= S。 * * 东南大学 吴健雄实验室 大规模基因组测序 得到待测序列的一系列序列片段 这些序列片段覆盖待测序列 序列片段之间也存在着相互覆盖或者重叠。 目标序列 序列碎片 Input Answer ACCGT --ACCGT-- CGTGC ----CGTGC TTAC TTAC----- TACCGT -TACCGT-- TTACCGTGC (1)碱基标识错误 4个主要问题 (2)不知道片段的方向 (3)存在重复区域 . . (4)缺少覆盖 三种片段组装模型 给定一个字符串集合F,求出一个最短的字符串S,使得对于所有属于F 的字符串f,S是 f 的超串(或者 f 是 S 的子串)。 设F={ACT,CTA,AG

文档评论(0)

wangyueyue + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档