- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
生物信息学Bioinformatics;第四章 DNA与蛋白质序列比对;什么是序列比对?;我们为什么关注序列比对?;序列比对的根本任务:
发现序列之间的相似性
辨别序列之间的差异
目的:
相似序列?相似的结构?相似的功能
判别序列之间的同源性?推测序列之间的进化关系 ;一致性(identity):
描述了在每个位点上两条或两条以上的序列的实际相似程度,通过计算排列完的序列上相同的碱基或氨基酸数目衡量。
例如
THISISA-SEQUENCE
TH----ATSEQUENCE;7;8;直系同源的定义???:;鉴定直系同源的实际操作标准(practical criteria)为:;例如同是起源于珠蛋白的α珠蛋白、β珠蛋白和肌红蛋白。;相似性和同源性关系;序列比较的基本操作是比对(Alignment)
两个序列的比对是指这两个序列中各个字符的一种一一对应关系,或字符的对比排列 。;一、字母表和序列
二、编辑距离(Edit Distance)
三、序列两两比对的相似性评价
四、打分矩阵(Weight Matrices)
;一、字母表和序列;16;17;
? — 代表字母表
A* — 代表由字母表A中字符所形成的一系列有限长度序列或字符串或序列的集合
a、b、c—代表单独的字符
s、t、u、v—代表A*中的序列
|s|—代表序列s的长度;为了说明序列s子序列和s中单个字符,在s中各字符之间用数字标明分割边界
例如,设s=ACCACGTA,则s可表示为 0A1C2C3A4C5G6T7A8
i:s:j 指明第i位和第j位之间的子序 列,
当然,0 ? i ? j ? |s|。
子序列 0:s: i 称为前缀即prefix(s,i)
子序列 i:s:|s| 称为后缀,
即suffix(s, |s|-i)
有两种特殊的情况,即i=j 或i = j-1。
i:s: i — 为空序列
j-1:s:j —表示s 中的第j 个字符,简记为sj
;子序列:选取s中的某些字符(或删除s中的某些字符)而形成s的子序列
例如:
TTT 是 ATATAT的子序列。
子串:是由s中相继的字符所组成。
例如:
TAC是AGTACA的子串,
但不是TTGAC的子串(是子序列)。
子串是子序列 子序列不一定是子串
;字符串操作;(1)两条长度相近的序列相似 ?找出序列的差别(2)判断一条序列的前缀与另一条序列的后缀相似(3)判断一条序列是否是另一条序列的子序列(4)判断两条序列中是否有非常相似的子序列;;;;二、编辑距离(Edit Distance);有两种方法可用于量化两条序列的相似程度:
相似度:它是两个序列的函数,其值越大,表示两个序列越相似
距离:两个序列之间的距离。距离越大,则两个序列的相似度就越小 ;最简单的距离就是海明(Hamming)距离。对于两条长度相等的序列,海明距离等于对应位置字符不同的个数。例如;字符编辑操作(Edit Operation);扩展的编辑操作;三、序列两两比对的相似性评价; s: AGCACAC?A AG?CACACA
t: A?CACACTA ACACACT?A
——————————————————————————
Match(A, A) Match(A, A)
Delete(G, - ) Replace(G, C)
Match(C, C) Insert( -, A)
Match(A, A) Match(C, C)
Match(C, C) Match(A, A)
Match(A, A) Match(C, C)
Match(C, C) Replace(A, T)
Insert( -, T) Delete(C, -)
Match(A, A) Match(A, A)
序列AGCACACA和ACACACTA的两种比对结果
;不同编辑操作的代价不同;得分(score)函数; 例如:
s: AGCACAC?A
t: A?CACACTA
cost=2
s: AGCACAC?A
t: A?CACACTA
score (s,t)= 5
序列比对的目的是寻找一个得分最大(或代价最小)的比对。;空位罚分(Gap Penalties);空位罚分(Gap Penalties);空位罚分;空位罚分公式;
原创力文档


文档评论(0)