- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
序列比对4
双序列比对;定义:;Definitions: two types of homology ;;相似性的定量描述;相似性得分;同源性与相似性的异同;序列比对;主要内容;序列比对的概念:序列比对是生物信息学中最基本的操作;生物序列间的关系;;空格;序列的差异都是由突变引起的。
常见的突变是替换、插入和删除,其中后两者都导致比对中引入空格。
注意:
一个碱基的替换可能导致也可能不导致相应位置氨基酸的变化,但一个碱基的插入或删除则肯定影响该位置氨基酸的编码。
;替换计分矩阵;DNA序列比对的替换计分矩阵;;(2)转换—颠换矩阵
核酸的碱基按照环结构分为两类,一类是嘌呤(腺嘌呤A,鸟嘌呤G),它们有两个环;另一类是嘧啶(胞嘧啶C,胸腺嘧啶T),它们的碱基只有一个环。如果DNA碱基的变化(碱基替换)保持环数不变,则称为转换( transition),如A→G, C→T;如果环数发生变化,则称为颠换(transversion),如A→C, A→T等。在进化过程中,转换发生的频率远比颠换高,而表5-3所示的矩阵正好反映了这种情况,其中转换的得分为“-1”,而颠换的得分为“-5”。
;表5-3 转换-颠换矩阵;(3) BLAST矩阵
BLAST是目前最流行的核酸序列比较程序,经过大量实际比对发现,如果令被比对的两个核苷酸相同时得分为“+5”,反之得分为“-4”,则比对效果较好。
;双序列比对算法;全局比对的经典算法;动态规划思想;按照规则建立得分矩阵:
S(i,0)=0,
S(0,j)=0,
S(i,j)=max;;例如,对于序列a=ACACACTA和序列b=AGCACACA。
计分规则:
w(匹配)=+2;w(a,-)=w(-,b)=w(失配)=-1.
;;练习
应用blast打分矩阵寻找下面两条序列的最佳匹配:
AGCACACA
ACACACTA
;;点阵图分析两序列间的相似性;;;* /108;;;;;(2)蛋白质打分矩阵;(1) 等价矩阵;(2) 遗传密码矩阵GCM
GCM矩阵通过计算一个氨基酸残基转变到另一个氨基酸残基所需的密码子变化数目而得到,矩阵元素的值对应于代价。
如果变化一个碱基,就可以使一个氨基酸的密码子改变为另一个氨基酸的密码子,则这两个氨基酸的替换代价为1;
如果需要两个碱基的改变,则替换代价为2;以此类推(见表5-5)。
;GCM矩阵常用于进化距离的计算,其优点是计算结果可以直接用于绘制进化树,但是它在蛋白质序列比对尤其是相似程度很低的序列比对中很少被使用。
;;;;(4) PAM矩阵
统计自然界中各种氨基酸残基的相互替换率。
如果两种特定的氨基酸之间替换发生得比较频繁,那么这一对氨基酸在得分矩阵中的互换得分就比较高。
PAM矩阵是第一个广泛使用的最优矩阵,它是基于进化原理的,建立在进化的可接受点突变模型PAM ( point accepted mutation)基础上,通过统计相似序列比对中的各种氨基酸替换发生率而得到该矩阵。
;;;;例如,可以按下述方法构建PAM-1矩阵。
首先,构建一个序列间相似度很高(通常大于85%)的比对。
接着,计算每个氨基酸j的相对突变率mj,(j表示被其他氨基酸替换的次数)。相对突变率就是某种氨基酸被其他任意氨基酸替换的次数。
比如,丙氨酸的相对突变率是通过计算丙氨酸与非丙氨酸残基比对的次数来得到。
然后,针对每个氨基酸对i和j,计算氨基酸j被氨基酸i替换的次数。
;;;;;;;三、比对的统计学显著性;一、将β球蛋白或肌球蛋白与大量非同源的蛋白质做比对,将score与这些比对的得分进行比较。
二、把一个序列与一组随机产生的序列进行比对,然后同样将score与这些比对的得分进行比较。
三、随机将两个序列中的一个打乱重组,比如说重组100次,与另一个序列比对,将score与这组得分进行比较。;假定由这一群比对得到的得分是服从正太分布的,那么利用下列公式可以计算大于或等于score的概率:
Z=(S-M)/D,
假定用第三种方法,M和D分别表示100组随机重组序列的比对产生的平均值和标准差,S是得分Score。
根据z值判断两个序列相似得分的显著性 ,当z值是3.1、4.3、5.2时,x出现的概率为10-3、10-5、10-7
Z 5,同源;
Z 3, 不同源;
Z = 3~5, 可能同源
;;第四节 双序列比对工具;数据库搜索的基础是序列的相似性比对,即双序列比对(pairwise alignment)。
新测定的、希望通过数据库搜索确定其性质或功能的序列称作检测序列(pr
文档评论(0)