- 1、本文档共11页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
BLOSUM矩阵及其在生物信息学中的应用BLOSUM矩阵及其在生物信息学中的应用
[生工0902] BLOSUM矩阵及其在生物信息学中的应用 生物信息学 齐阳,汪锴,袁理 2011/11/25
什么是BLOSUM矩阵?BLOSUM矩阵有什么应用?
BLOSUM矩阵及其在生物信息学中的应用
齐阳 汪锴 袁理
摘要关键词 BLOSUM矩阵生物信息学应用
序列比对是现代生物学最基本的研究方法之一, 最常见的比对是蛋白质序列之间或核酸序列之间的两两比对,通过比较两个序列之间的相似区域和保守性位点,寻找二者可能的分子进化关系,进而可以有效地分析和预测一些新发现基因的功能。目前各种蛋白质序列对比算法主要利用一种替代矩阵来计算序列间的相似性,过去所普遍使用的Dayhoff矩阵只能用来进行相似度85%以上的序列对比「1」,为了满足大量生命科学研究的需求,1992年Henikoff夫妇从蛋白质模块数据库B中找出一组替代矩阵,即系列,很好的解决了序列的远距离相关的问题,此后十几年来及其衍生替代矩阵已经成为蛋白质多序列对比的常用方法1 BLOSUM 矩阵概况
序列比对是现代生物学最基本的研究方法之一,常见的比对是蛋白质序列之间或核酸序列之间的两两比对,通过比较两个序列之间的相似区域和保守性位点,寻找二者可能的分子进化关系,进而可以有效地分析和预测一些新发现基因的功能。「」「」 当根据打分函数假定两序列同源时,可以发现某些替换比其它替换要常见的多,比较保守的替换比起较随机替换更能维持蛋白质的功能,而且不容易被淘汰。因此,在为比对打分时,更倾向为保守基团如丙氨酸、缬氨酸等比对位点多谢奖励,而对于那些大而带点氨基酸如赖氨酸的比对位点则相反。一旦和概算或氨基酸残基可能的两两比对得分都确定了,那么得到的打分矩阵就可以用来为比对中每个非空位位点进行评分。为了获得打分矩阵,最常用的方法是统计自然界中各种氨基酸残基的相互替换率「」目前各种蛋白质序列对比算法主要利用一种替代矩阵来计算序列间的相似性,过去所普遍使用的Dayhoff矩阵只能用来进行相似度85%以上的序列对比1」,为了满足大量生命科学研究的需求,1992年Henikoff夫妇从蛋白质模块数据库B(ox 1. BLOCKS基本概念)中找出一组替代矩阵,即系列,很好的解决了序列的远距离相关的问题,此后十几年来及其衍生替代矩阵已经成为蛋白质多序列对比的常用方法BLOSUM 矩阵的构建
2.1 多序列比对
定义:一个多序列比对A 是一个二维字符矩阵,即A={}(n∈[1,N],i∈[1,I]),其中 = 或‘-’,并且满足下面三个条件:(1)序列的数目等于矩阵的行数;(2)如果移去每行中的‘-’字符,将得到原来的序列;(3)将不同序列间相同或相似的残基放入同一列,即尽可能将序列间相同或相似残基上下对齐「」DNA 或蛋白质经过一系列突变事件(替代、插入、删除)的最后结果,它最近似地表示了所有的进化过程。其中删除和插入没有区别,经过适当地插入删除(用insert,delete 表示),可以使相同地保守残基位于同一列上,并使所有的结果序列具有相同的长度。例如:
VTISCTGSSSNIGAG-NHVKWYQQLPG
VTISCTGTSSNIGS--ITVNWTQQLPG
LRLSCSSSGFIFSS--YAMYWVRQAPG
PEVTCVVVDVSHEDPQVKFNWYVDG—
2.2 BLOSUM打分规则「」-----------------------------------------------(1)
其中, 是指假定残基对a与b是同源的, 在已有同源序列比对中出现的目标频率: 是指假定残基a与b是非同源的与独立的, 残基a与b出现在任何一个蛋白质氨基酸序列中的平均背景频率: 是尺度参数,每个得分四舍五人取整.
如果残基对a 与b是同源的, 则它们出现在同源序列比对中目标频率,s(a,b)0.
如果残基对a与b 是非同源的, 则它们出现在同源序列比对中目标频率,s(a,b)0.
以相同氨基酸: 色氨酸/色氨酸(w/w)比对得分和亮氨酸/亮氨酸(L/L)比对得分;不同氨基酸: 丙氨酸/亮氨酸(A/L)比对得分和赖氨酸/谷氨酸(K/E)比对得分为例, 介绍计算过程.
色氨酸/色氨酸(W/W)比对得分;在同源比对数据库中,测得=0.0065,=0-013,=0.347,代入(1)得s(W/W)=+10.5,取整得+11;
亮氨酸/亮氨酸(L/L)比对得分;在同源比对数据库中,测得=0.0371,=0.099,=0.347,代入(1)得s(L/L)=+3.8,取整得+4;
丙氨酸/亮氨酸(A/L)比对得分;在同源比对数据库中,测得=0.0044,=0.074,=0.099 =0.347,代入(1)得s(K/E)=-1.47,取整得-1;
赖氨酸/谷氨酸(K/E
文档评论(0)