- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
《生物信息学》第三章:序列比较(第一部分)
蛋白质序列的替换记分矩阵(1)
蛋白质的替换记分矩阵要比核酸的复杂一些。
首先,蛋白质也有纯理论用的等价矩阵,相同得 1 分,不同得 0 分。
此外,蛋白质最常用的两种矩阵是 PAM 矩阵和 BLOSUM 矩阵。PAM 矩阵基于进化原
理。如果两种氨基酸替换频繁,说明自然界容易接受这种替换,那么这一对氨基酸替换的得
分就应该高。PAM 矩阵是目前蛋白质序列比较中最广泛使用的记分方法之一。基础的 PAM-1
矩阵反应的是进化产生的每一百个氨基酸平均发生一个突变的量值,由统计方法得到。
PAM-1 自乘 n 次,可以得到 PAM-n ,表示发生了更多次突变。我们需要根据要比较的序列
之间的亲缘关系远近,来选择适合的 PAM 矩阵。如果序列亲缘关系远,也就是说序列间会
有很多突变,那就选 PAM 后面跟一个大数字的矩阵。如果亲缘关系近,也就是突变比较少,
序列间大多数地方都是一样的,那就选 PAM 后面跟一个小数字的矩阵。
图 1 是 PAM250 矩阵。对角线上的数值为匹配氨基酸的得分。其他位置上≥0 的得分代
表对应的一对氨基酸为相似氨基酸,0 的是不相似的氨基酸。
图 1. PAM250 矩阵
BLOSUM 矩阵有和 PAM 矩阵相同的地方,也有不同的地方。相同的是,BLOSUM 矩阵
后面也带有一个编号,有很多种 BLOSUM 矩阵。不同的是,BLOSUM 矩阵都是通过对大量
符合特定要求的序列计算而来的。这点和 PAM 矩阵不同的。PAM-1 矩阵是基于相似度大于
85%的序列计算产生的,也就是通过关系较近的序列计算出来的。那些进化距离较远的矩阵,
如 PAM-250,是通过 PAM-1 自乘得到的。也就是说,BLOSUM 矩阵的相似性是根据真实数
据产生的,而 PAM 矩阵是通过矩阵自乘外推而来的。和 PAM 矩阵的另一个不同之处是
BLOSUM 矩阵的编号。这些编号,比如 BLOSUM80 中的 80,代表这个矩阵是由一致度≥80%
的序列计算而来的。同理,BLOSUM62 是指这个矩阵是由一致度≥62%的序列计算而来的。
因此,BLOSUM 后面跟一个小数字的矩阵适合用于比较相似度低的序列,也就是亲缘关系
远的序列;而 BLOSUM 后面跟一个大数字的矩阵适合比较相似度高的序列,也就是亲缘关
系近的序列。
图 2 是 BLOSUM 62 矩阵.样子和 PAM 矩阵差不多,但是里面的数值是不一样的。同样,
≥0 的得分代表对应的一对氨基酸为相似氨基酸,0 的是不相似的氨基酸。
图 2. BLOSUM62 矩阵
现在我们总结一下到底是用 PAM 几,或者 BLOSUME 几。PAM1 对应的氨基酸差异是
1%,这是基础矩阵,由实际数据计算得出。而 PAM11 是由 PAM1 自乘 11 次得到的,他对
应的氨基酸差异可不是 11%,而是大约在 10%左右(图 3)。同样,PAM80 对应的差异也不
是 80%,而是在 50%左右。如果你要比对的序列亲缘关系远,比如氨基酸差异在 80%左右,
那就得选 PAM 自乘次数非常多的矩阵,适合的是 PAM246。但是现成的 PAM 矩阵也不是什
么号的都有,只有几个关键号的。比如这个 PAM246 就没有,有的是 PAM250。再来看
BLOSUME。BLOSUME 后面的号和 PAM 刚好相反,因为它对应的是序列的相似度。差异
在 80%左右意味着相似度在 20%左右,所以这个档次上的序列适合用的 BLOSUM 矩阵就是
BLOSUM20。概括的说,PAM 后面的数体现的是序列的差异度,但不直接等于差异度,只
是成对应关系而已;BLOSUM 后面的数体现是的序列的相似度并且直接等于相似度。所以
我们看到,随着差异度的增大,适用的 PAM
您可能关注的文档
- 1.2热力学第一定律、焓和焓变.pdf
- 1.2探索生物信息学神秘岛-01.pdf
- 1.3 偏差生物化学.pdf
- 1.3 肉足纲代表动物及其主要特征.pdf
- 1.3热化学方程式、盖斯定律.pdf
- 1.4 数据的取舍和运算规则.pdf
- 1.4生成焓、化学反应热效应计算.pdf
- 1.4这门课学神马.pdf
- 1.5 纤毛纲代表动物及其主要特征.pdf
- 1.7第一章小结应用电化学.pdf
- 3.4序列两两比较打点法-03-dotlet应用实例.pdf
- 3.5序列两两比较比对法-01-什么是序列比对.pdf
- 3.7在线双序列比对工具-03-EMBL局部双序列比对工具.pdf
- 3.7在线双序列比对工具-04-其他在线双序列比对工具.pdf
- 3.8BLAST搜索-01-BLAST是怎么样工作的.pdf
- 3.9多序列比对介绍-01-用途和算法.pdf
- 3.10在线多序列比对工具-01-EMBL Clustal Omega.pdf
- 3.8BLAST搜索-06-其他BLAST生物化学.pdf
- 3.10在线多序列比对工具-02-TCOFFEE Expresso.pdf
- 3.8BLAST搜索-03-NCBI_BLASTp生物化学.pdf
文档评论(0)