第四章(2)序列分析.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第三节 序列多重比对 1、SP(Sum-of-Pairs)模型 2、多重比对的动态规划算法 3、 优化计算方法 4、星形比对 星形比对的基本思想是:在给定的若干序列中,选择一个核心序列,通过该序列与其它序列的两两比对形成所有序列的多重比对?,从而使得?在核心序列和任何一个其它序列方向的投影是最优的两两比对。 利用标准的动态规划方法求出所有si和sc的最优两两比对 时间为O(kn2) 将这些两两比对聚集起来 并采用“只要是空白, 则永远是空白”的原则。 sc s1 s2 … sk 如何选择核心序列? 尝试将每一个序列分别作为核心序列,进行星形多重序列比对,取比对结果最好的一个。 另一种方法是计算所有的两两比对,取下式值最大的一个: ? sim( si, sc ) 例如,有5个序列: s1 = ATTGCCATT s2 = ATGGCCATT s3 = ATCCAATTTT s4 = ATCTTCTT s5 = ACTGACC 5、树形比对 6、其它多重序列比对算法 一般渐进式比对方法所采用的过程: (1)先将多个序列进行两两比对,基于这些比较,计算得到一个距离矩阵,该矩阵反映每对序列的关系; (2) 利用距离矩阵,建立一棵“相关树”; (3)从最接近的一对序列出发,逐步归并形成比对的聚类,直到所有序列处理完。 例: 目前使用最广泛的多重序列比对程序是ClustalW ClustalW是一种渐进的比对方法,先将多个序列进行两两比对,基于这些比较,计算得到一个距离矩阵,该矩阵反映了每对序列的关系 利用保守序列或者特征统计图可以判断一个序列是否满足一定的特征 给定一个序列s=a1a2…am,定义字符a在第j位的代价为 其中,|A|代表字母表A的长度,Ak代表A的第k个字符,特别地A0代表空缺字符“-”。整个序列s的代价为 第四节 DNA片段组装 1、片段组装问题 定义: 给定一组取自特定字母表的字符串集合F,寻找一个最短的字符串s,使得F中的每一个字符串都是s的一个连续子串。这里,集合F的字符串相当于待组装的序列片段,而s则是序列片段组装的结果。 2、序列片段组装模型 序列片段组装过程: 三个步骤 (1)首先进行序列片段的两两比较,确定可能的片段之间的覆盖(或者重叠); (2)确定所有片段统一的覆盖模式,即确定各个序列片段的相对位置; (3)最后确定片段组装结果,即确定目标序列。 (1)最短公共超串模型 (2)重建模型 (3)多重连续区模型 3、序列片段覆盖图 覆盖多图OM(F)是一个有向图 其中图中的各个顶点代表F的一个字符串 如果f、g?F,并且f 的t个字符的后缀与g的t个字符的前缀相同,则图中存在一条权值为t的有向边。 产生超串的路径 设P是OM(P)中的一条路径,A是该路径上对应片段的集合,P有?A?-1条边。 将根据 P 所得到的超串记为S(P)。 A的总长度、路径权值及超串的长度关系如下: ‖A‖ = w(P) + ?S(P)? ‖A‖= ?a?A?a? 是A中序列的总长度 w(P)是路径P权值的和 任何一条路径对应于一个公共超串 一条路径是否通过图中所有的顶点? — 哈密顿路径 ? A=F 的共同超串 ?S(P)? = ‖F‖ - w(P) ‖F‖是常数 ?S(P)?取最小等价于对w(P)取最大 求最短的公共超串等价于取权值最大的哈密顿路径 最短超串是否总是对应于一条路径呢? 答案是肯定的 定理3.3 设F是一个无子串的串集合,则对于F的任何一个公共的超串S,在OM(F)中存在一条哈密顿路径P,使得S(P)是S的子序列。(与子串有区别) 推论3.1 设F是一个无子串的串集合,如果S是F最短的公共超串,则在OM(F)中有一条哈密顿路径P,使得S=S(P)。 引理3.2 两个等价的无子串的串集合相同。 定理3.4 设F是一个串集合,则存在一个唯一的无子串集合G,使G等价于F。 根据上述的各个定理,片段组装的一般过程如下: (1)对于给定的片段集合F,首先去掉那些是子串的序列,形成新的片段集合F’; (2)根据F’生成覆盖多图; (3)求权值最高的哈密顿路径,由此得到最短的公共超串; (4)最终形成组装结果。 但是,如何在一个覆盖多图中找出权值最高的哈密顿路径呢? 4、贪婪算法 简化覆盖多图,对每一对顶点仅考虑权值最大的边,而去掉其它的边。 称经过处理

文档评论(0)

docindoc + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档