blosum矩阵及其在生物信息学中的应用.pdf

  1. 1、本文档共11页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
[生工 0902] BLOSUM 矩阵及其在生物 信息学中的应用 生物信息学 齐阳,汪锴,袁理 2011/11/25 什么是 BLOSUM 矩阵?BLOSUM 矩阵有什么应用? BLOSUM 矩阵及其在生物信息学中的应用 齐阳 汪锴 袁理 摘要 BLOSUM 矩阵是一种蛋白质序列对比的算法,在生物信息学领域中被广泛应用。本文 综述了 BLOSUM 矩阵的由来、如何构建 BLOSUM 矩阵和其打分规则、应用以及现代算法。 并指出了 BLOSUM 矩阵的发展前景。 关键词 BLOSUM 矩阵;生物信息学;应用 0 引言 序列比对是现代生物学最基本的研究方法之 , 最常见的比对是蛋白质序 列之间或核酸序列之间的两两比对,通过比较两个序列之间的相似区域和保守性 位点,寻找二者可能的分子进化关系,进而可以有效地分析和预测一些新发现基 因的功能。目前各种蛋白质序列对比算法主要利用一种替代矩阵来计算序列间的 相似性,过去所普遍使用的 Dayhoff 矩阵只能用来进行相似度 85%以上的序列 「1」 对比 ,为了满足大量生命科学研究的需求,1992 年 Henikoff 夫妇从蛋白质 模块数据库 BLOCKS 中找出一组替代矩阵,即 BLOSUM 系列,很好的解决了 序列的远距离相关的问题,此后十几年来 BLOSUM 及其衍生替代矩阵已经成为 蛋白质多序列对比的常用方法。 1 BLOSUM 矩阵概况 序列比对是现代生物学最基本的研究方法之一,常见的比对是蛋白质序列之 间或核酸序列之间的两两比对,通过比较两个序列之间的相似区域和保守性位点, 寻找二者可能的分子进化关系,进而可以有效地分析和预测一些新发现基因的功 能。在比对两个序列时,不仅要考虑完全匹配的字符,还要考虑一个序列中的空 格或间隙(或者,相反地,要考虑另一个序列中的插入部分)和不匹配,这两个 「2」 方面都可能意味着突变 。在序列比对中,需要找到最优的比对即将匹配的数 量最大化,将空格和不匹配的数量最小化。为了确定最优的比对,必须为每个比 「3」 对进行评估和打分,于是引入了打分函数 。 当根据打分函数假定两序列同源时,可以发现某些替换比其它替换要常见 的多,比较保守的替换比起较随机替换更能维持蛋白质的功能,而且不容易被淘 汰。因此,在为比对打分时,更倾向为保守基团如丙氨酸、缬氨酸等比对位点多 谢奖励,而对于那些大而带点氨基酸如赖氨酸的比对位点则相反。一旦和概算或 氨基酸残基可能的两两比对得分都确定了,那么得到的打分矩阵就可以用来为比 对中每个非空位位点进行评分。为了获得打分矩阵,最常用的方法是统计自然界 「3」 中各种氨基酸残基的相互替换率 。 目前各种蛋白质序列对比算法主要利用一种替代矩阵来计算序列间的相似 性,过去所普遍使用的 Dayhoff 矩阵只能用来进行相似度 85%以上的序列对比 「1」 ,为了满足大量生命科学研究的需求,1992 年 Henikoff 夫妇从蛋白质模块 数据库 BLOCKS (Box 1. BLOCKS 基本概念)中找出一组替代矩阵,即 BLOSUM 系列,很好的解决了序列的远距离相关的问题,此后十几年来 BLOSUM 及其衍生替代矩阵已经成为蛋白质多序列对比的常用方法。 2 BLOSUM 矩阵的构建 2.1 多序列比对 定义:一个多序列比对A 是一个二 维字符矩阵,即A={ani }(n∈[1,N],i ∈[1,I]),其中ani = sni 或‘-’,并 且满足下面三个条件:(1)序列的数目 等于矩阵的行数;(2)如果移去每行中 的‘-’字符,将得到原来的序列; (3)将不同序列间相同

文档评论(0)

152****7770 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档