- 1、本文档共11页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
[生工0902]
BLOSUM矩阵及其在生物信息学中的应用
生物信息学
齐阳,汪锴,袁理
2011/11/25
什么是BLOSUM矩阵?BLOSUM矩阵有什么应用?
BLOSUM矩阵及其在生物信息学中的应用
齐阳 汪锴 袁理
摘要 BLOSUM矩阵是一种蛋白质序列对比的算法,在生物信息学领域中被广泛应用。本文综述了BLOSUM矩阵的由来、如何构建BLOSUM矩阵和其打分规则、应用以及现代算法。并指出了BLOSUM矩阵的发展前景。
关键词 BLOSUM矩阵;生物信息学;应用
0 引言
序列比对是现代生物学最基本的研究方法之一, 最常见的比对是蛋白质序列之间或核酸序列之间的两两比对,通过比较两个序列之间的相似区域和保守性位点,寻找二者可能的分子进化关系,进而可以有效地分析和预测一些新发现基因的功能。目前各种蛋白质序列对比算法主要利用一种替代矩阵来计算序列间的相似性,过去所普遍使用的Dayhoff矩阵只能用来进行相似度85%以上的序列对比「1」,为了满足大量生命科学研究的需求,1992年Henikoff夫妇从蛋白质模块数据库BLOCKS中找出一组替代矩阵,即BLOSUM系列,很好的解决了序列的远距离相关的问题,此后十几年来BLOSUM及其衍生替代矩阵已经成为蛋白质多序列对比的常用方法。
1 BLOSUM 矩阵概况
序列比对是现代生物学最基本的研究方法之一,常见的比对是蛋白质序列之间或核酸序列之间的两两比对,通过比较两个序列之间的相似区域和保守性位点,寻找二者可能的分子进化关系,进而可以有效地分析和预测一些新发现基因的功能。在比对两个序列时,不仅要考虑完全匹配的字符,还要考虑一个序列中的空格或间隙(或者,相反地,要考虑另一个序列中的插入部分)和不匹配,这两个方面都可能意味着突变「2」。在序列比对中,需要找到最优的比对即将匹配的数量最大化,将空格和不匹配的数量最小化。为了确定最优的比对,必须为每个比对进行评估和打分,于是引入了打分函数「3」。
当根据打分函数假定两序列同源时,可以发现某些替换比其它替换要常见的多,比较保守的替换比起较随机替换更能维持蛋白质的功能,而且不容易被淘汰。因此,在为比对打分时,更倾向为保守基团如丙氨酸、缬氨酸等比对位点多谢奖励,而对于那些大而带点氨基酸如赖氨酸的比对位点则相反。一旦和概算或氨基酸残基可能的两两比对得分都确定了,那么得到的打分矩阵就可以用来为比对中每个非空位位点进行评分。为了获得打分矩阵,最常用的方法是统计自然界中各种氨基酸残基的相互替换率「3」。
目前各种蛋白质序列对比算法主要利用一种替代矩阵来计算序列间的相似性,过去所普遍使用的Dayhoff矩阵只能用来进行相似度85%以上的序列对比「1」,为了满足大量生命科学研究的需求,1992年Henikoff夫妇从蛋白质模块数据库BLOCKS(Box 1. BLOCKS基本概念)中找出一组替代矩阵,即BLOSUM系列,很好的解决了序列的远距离相关的问题,此后十几年来BLOSUM及其衍生替代矩阵已经成为蛋白质多序列对比的常用方法。
2 BLOSUM 矩阵的构建
2.1 多序列比对
定义:一个多序列比对A 是一个二维字符矩阵,即A={}(n∈[1,N],i∈[1,I]),其中 = 或‘-’,并且满足下面三个条件:(1)序列的数目等于矩阵的行数;(2)如果移去每行中的‘-’字符,将得到原来的序列;(3)将不同序列间相同或相似的残基放入同一列,即尽可能将序列间相同或相似残基上下对齐「5」。
从上面的定义可以看出,一个比对实际上是DNA 或蛋白质经过一系列突变事件(替代、插入、删除)的最后结果,它最近似地表示了所有的进化过程。其中删除和插入没有区别,经过适当地插入删除(用insert,delete 表示),可以使相同地保守残基位于同一列上,并使所有的结果序列具有相同的长度。例如:
VTISCTGSSSNIGAG-NHVKWYQQLPG
VTISCTGTSSNIGS--ITVNWTQQLPG
LRLSCSSSGFIFSS--YAMYWVRQAPG
PEVTCVVVDVSHEDPQVKFNWYVDG—
2.2 BLOSUM打分规则「6」
BLOSUM中得分主要采用Log-odds得分,即同源与非同源的可能性的比率的对数。在BLOSUM中两个残基i与j的得分s(a,b)按照log-odds方程计算,方程如下:
-----------------------------------------------(1)
其中, 是指假定残基对a与b是同源的, 在已有同源序列比对中出现的目标频率: 是指假定残基a与b是非同源的与独立的, 残基a与b出现在任何一个蛋白质氨基酸序列中的平均背景频率: 是尺度参数,每个得分四舍五人取整.
如果残基对a 与b是同源的, 则它
文档评论(0)