- 1、本文档共44页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
对位排列类别 在序列中搜索一系列单个性状或性状模式可以比较两个(成对对位排列)或更多(多重对位排列)序列 全局和局部对位排列 序列对位排列方法 点阵分析法 动态规划法 词或K串方法 点阵方法 点阵图特征 对位排列计分 序列1 acgtggttcatcaggaccccggacatatcaggaccc ||||||||||||||||||| || ||||||||||||| 序列2 acgtggttcatcaggacccgggccatatcaggaccc 设N为对位排列的长度, δ为记分函数 S(A) = ?δ(S[i],T[i]) 简单计分系统 A C G T A 1 0 0 0 C 0 1 0 0 G 0 0 1 0 T 0 0 0 1 氨基酸置换矩阵 用序列相似的一组蛋白质的对位排列来确定单步氨基酸变化,以此来预测进化过程中大部分可能的氨基酸变化。该方法由Margaret Dayhoff (1978) 建立 较为成熟的有:Dayhoff和Blosum计分矩阵 Dayhoff 突变数据矩阵 分析一组关系很近的蛋白质,其中的氨基酸置换不引起蛋白质功能上的显著变化,称为“可接受突变” 一个PAM的进化距离定义为每100个氨基酸中一个点突变可被接受的概率 BLOSUM矩阵 BLOSUM矩阵可以使用关系较远的序列来获得矩阵元素 以大于或等于80%同一性的聚合序列构建BLOSUM 80 矩阵,而大于或等于62%的聚合序列则用于构建BLOSUM 62 矩阵 BLOSUM 62 空位/间隔罚分(Gap penalty) 为了获得两个序列间最可能的排列,必须使用空位/间隔和空位/间隔罚分 空位/间隔罚分太高,空位/间隔不会出现在匹配序列中 空位/间隔罚分太小,空位/间隔就可以出现在排列序列的任一地方 其他计分矩阵 其他氨基酸计分矩阵 遗传密码计分和化学相似性计分 如Jones为跨膜蛋白建立的记分矩阵 核苷酸PAM计分矩阵 氨基酸物理化学性质 多重序列对位排列 (MSA) 序列对位排列的主要用途 用于分子进化分析 (课程后续内容) 结构预测 序列基序鉴定 功能预测 数据库搜索 2、结构预测 acetylglucosamin 结合蛋白的序列对位排列和三级结构。 对位排列中黄色区域是最可能建立同样三级结构的区域。图中显示了4个二硫键。 3、基序 (motif) 鉴定 CCCH锌指基序 Clustal W软件原理 渐进方法: 用成对对位获得相似矩阵 从矩阵得到导引树 根据导引树进行渐进排列 (1) 成对对位 将序列两两对位,并计算出相似性矩阵 相似性 = 相同位点数 / 总长度 (2) 导引树 使用NJ法从相似矩阵得到导引树, 近似反映序列间的进化关系 (3) 渐进排列 先将最近的两条序列重新对位 再按照导引树,往上逐步添加最接近的序列,得到优化的MSA 手工校正 手工对位排列费时费力,基本被软件代替 软件自动排列会出现偏差,特别是某些序列涉及复杂的生物学背景, 需要手工校正作为补充途径 蛋白质二级结构对位排列二级结构类型 ? 螺旋(? Helices) ? 折叠(? Sheets) 环区(Loops) 无规则卷曲或卷曲(Random coils or Coil) SSEA记分规则 每一条序列中的二级结构区域用一个字符(H, E, C) 及其长度表示 完全匹配 (H - H, E - E, C - C) 记分 错配不计分 (H - E, E - H) 与卷曲匹配记分 ({H, E} - C) 对位排列时不拆解二级结构区域 分值标准化 ( 0 - 100 的分值) SSEA记分举例 Seq A = CCCCCHHHHHHHHCCCCHHHHHHHHHHCCCCCCC 表示为 C4, H8, C4, H10, C7 Seq B = CCEEECCCHHHHHHCCCCHHHHHHHHCCCEEECCCC 表示为 C2,E3,C2,H6, C4, H8, C3,E3,C4 SSEA global alignment: -----CCCCCHHHHHHHHCCCCHHHHHHHHHH------CCCCCCC CCEEECCC--HHHHHH--CCCCHHHHHHHH--CCCEEECCCC--- score = 3 + 6 + 4 + 8 + 4 = 25 normalized score = 25 / ((34+36)/2) * 100 = 71.4286 M. Waterman,美国
文档评论(0)