- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第三章 序列比对;第一节 序列的相似性;;序列比较的基本操作是比对(Alignment)
两个序列的比对是指这两个序列中各个字符的一种一一对应关系,或字符的对比排列 。;符 号;氨基酸名称;特定的符号
? — 代表字母表
A* — 代表由字母表A中字符所形成的一系列有限长度序列或字符串的集合
a、b、c—代表单独的字符
s、t、u、v—代表A*中的序列
|s|—代表序列s的长度;为了说明序列s的子序列和s中单个字符,在s中各字符之间用数字标明分割边界
例如,设s=ACCACGTA,则s可表示为 0A1C2C3A4C5G6T7A8
i:s:j 指明第i位或第j位之间的子序列,
当然,0 ? i ? j ? |s|。
子序列0:s: i 称为前缀,即prefix(s,i)
子序列 i:s:|s|称为后缀,即suffix(s, |s|-i+1) ;
i:s: i — 为空序列
j-1:s:j —表示s 中的第j 个字符,简记为sj
子序列与子串(p82)
子序列:选取s中的某些字???(或删除s中的某些字符)而形成s的子序列
例如: TTT 是 ATATAT的子序列。
; s的子串:
是由s中相继的字符所组成。
例如:
TAC是AGTACA的子串,
但不是TTGAC的子串(是子序列)。
子串是子序列
子序列不一定是子串;字符串操作;序列比较可以分为四种基本情况(P83)(1)两条长度相近的序列相似 ?找出序列的差别(2)判断一条序列的前缀与另一条序列的后缀相似(3)判断一条序列是否是另一条序列的子序列(4)判断两条序列中是否有非常相似的子序列;2、编辑距离(Edit Distance); 两条序列的相似程度的定量计算
相似度,它是两个序列的函数,其值越大,表示两个序列越相似
两个序列之间的距离。距离越大,则两个序列的相似度就越小
;字符编辑操作(Edit Operation);扩展的编辑操作;反向互补序列;;;;→ 序列1 →;→ 序列1 →;滑动窗口技术
两条序列中有很多匹配的字符对,因而在点矩阵中会形成很多点标记。;滑动窗口技术
使用滑动窗口代替一次一个位点的比较是解决这个问题的有效方法。
假设窗口大小为10,相似度阈值为8,则每次比较取10个连续的字符,如相同的字符超过8个,则标记
基于滑动窗口的点矩阵方法可以明显地降低点阵图的噪声,并且明确无误的指示出了两条序列间具有显著相似性的区域。 ;(a)对人类(Homo sapiens)与黑猩猩(Pongo pygmaeus)的β球蛋白基因序列进行比较的完整点阵图。(b)利用滑动窗口对以上的两种球蛋白基因序列进行比较的点阵图,其中窗口大小为10个核苷酸,相似度阈值为8。 ;具有连续相似区域的两条DNA序列的简单点阵图;4、 序列的两两比对; s: AGCACAC?A AG?CACACA
t: A?CACACTA ACACACT?A
——————————————————————————
Match(A, A) Match(A, A)
Delete(G, - ) Replace(G, C)
Match(C, C) Insert( -, A)
Match(A, A) Match(C, C)
Match(C, C) Match(A, A)
Match(A, A) Match(C, C)
Match(C, C) Replace(A, T)
Insert( -, T) Delete(C, -)
Match(A, A) Match(A, A)
图3.6 序列AGCACACA和ACACACTA的两种比对结果
;;;概念; 例如:
s: AGCACAC?A
t: A?CACACTA
cost=2
s: AGCACAC?A
t: A?CACACTA
score (s,t)= 5
序列比对的目的是寻找一个得分最大(或代价最小)的比对。;5、打分矩阵(Weight Matrices)(P87);(2)蛋白质打分矩阵;;;;PAM矩阵(Point Accepted Mutation)
基于进化的点突变模型
一个PAM就是一个进化的变异单位, 即1%的氨基酸改变;矩阵集合----- PAM-N
如,PAM120矩阵用于比较相距120个PAM单位的序列。
一个PAM-N矩阵元素(i,j)的值:
反应两个相距N个PAM单位的序列中第i种氨基酸替换第j种氨基酸
文档评论(0)