生物信息学 基础——第三章教材编辑.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第三章 序列比对;第一节 序列的相似性;;序列比较的基本操作是比对(Alignment) 两个序列的比对是指这两个序列中各个字符的一种一一对应关系,或字符的对比排列 。;符 号;氨基酸名称;特定的符号 ? — 代表字母表 A* — 代表由字母表A中字符所形成的一系列有限长度序列或字符串的集合 a、b、c—代表单独的字符 s、t、u、v—代表A*中的序列 |s|—代表序列s的长度;为了说明序列s的子序列和s中单个字符,在s中各字符之间用数字标明分割边界 例如,设s=ACCACGTA,则s可表示为 0A1C2C3A4C5G6T7A8 i:s:j 指明第i位或第j位之间的子序列, 当然,0 ? i ? j ? |s|。 子序列0:s: i 称为前缀,即prefix(s,i) 子序列 i:s:|s|称为后缀,即suffix(s, |s|-i+1) ; i:s: i — 为空序列 j-1:s:j —表示s 中的第j 个字符,简记为sj 子序列与子串(p82) 子序列:选取s中的某些字???(或删除s中的某些字符)而形成s的子序列 例如: TTT 是 ATATAT的子序列。 ; s的子串: 是由s中相继的字符所组成。 例如: TAC是AGTACA的子串, 但不是TTGAC的子串(是子序列)。 子串是子序列 子序列不一定是子串;字符串操作;序列比较可以分为四种基本情况(P83) (1)两条长度相近的序列相似 ?找出序列的差别 (2)判断一条序列的前缀与另一条序列的后缀相似 (3)判断一条序列是否是另一条序列的子序列 (4)判断两条序列中是否有非常相似的子序列;2、编辑距离(Edit Distance); 两条序列的相似程度的定量计算 相似度,它是两个序列的函数,其值越大,表示两个序列越相似 两个序列之间的距离。距离越大,则两个序列的相似度就越小 ;字符编辑操作(Edit Operation);扩展的编辑操作;反向互补序列;;;;→ 序列1 →;→ 序列1 →;滑动窗口技术 两条序列中有很多匹配的字符对,因而在点矩阵中会形成很多点标记。;滑动窗口技术 使用滑动窗口代替一次一个位点的比较是解决这个问题的有效方法。 假设窗口大小为10,相似度阈值为8,则每次比较取10个连续的字符,如相同的字符超过8个,则标记 基于滑动窗口的点矩阵方法可以明显地降低点阵图的噪声,并且明确无误的指示出了两条序列间具有显著相似性的区域。 ;(a)对人类(Homo sapiens)与黑猩猩(Pongo pygmaeus)的β球蛋白基因序列进行比较的完整点阵图。(b)利用滑动窗口对以上的两种球蛋白基因序列进行比较的点阵图,其中窗口大小为10个核苷酸,相似度阈值为8。 ;具有连续相似区域的两条DNA序列的简单点阵图;4、 序列的两两比对; s: AGCACAC?A AG?CACACA t: A?CACACTA ACACACT?A —————————————————————————— Match(A, A) Match(A, A) Delete(G, - ) Replace(G, C) Match(C, C) Insert( -, A) Match(A, A) Match(C, C) Match(C, C) Match(A, A) Match(A, A) Match(C, C) Match(C, C) Replace(A, T) Insert( -, T) Delete(C, -) Match(A, A) Match(A, A) 图3.6 序列AGCACACA和ACACACTA的两种比对结果 ;;;概念; 例如: s: AGCACAC?A t: A?CACACTA cost=2 s: AGCACAC?A t: A?CACACTA score (s,t)= 5 序列比对的目的是寻找一个得分最大(或代价最小)的比对。;5、打分矩阵(Weight Matrices)(P87);(2)蛋白质打分矩阵;;;;PAM矩阵(Point Accepted Mutation) 基于进化的点突变模型 一个PAM就是一个进化的变异单位, 即1%的氨基酸改变;矩阵集合----- PAM-N 如,PAM120矩阵用于比较相距120个PAM单位的序列。 一个PAM-N矩阵元素(i,j)的值: 反应两个相距N个PAM单位的序列中第i种氨基酸替换第j种氨基酸

文档评论(0)

youngyu0318 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档