- 1、本文档共43页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
序列比对 目录 全局比对 记分矩阵 局部比对 缺口罚分联配 从 LCS 到序列联配: 改变记分方式 最长共同子序列 (LCS) 问题—最简单的序列联配方式,只有插缺,没有错配。 LCS 问题, 若匹配则奖励 1 分,若为插缺则没有惩罚 若为插缺则惩罚,若错配则为负分 简单记分法则: +1 : 匹配 -μ : 错配罚分 -σ : 插缺罚分 简单记分 最终得分为: #匹配 – μ(#错配) – σ (#插缺) 全局比对问题 对于一个给定的记分矩阵,找到两个字符串的最佳联配 输入 : 序列 v 和 w 和得分矩阵 输出 : 最高得分的联配 ↑→ = -б = 1 if match = -μ if mismatch si-1,j-1 +1 if vi = wj si,j = max s i-1,j-1 -μ if vi ≠ wj s i-1,j - σ s i,j-1 - σ 得分矩阵 在序列比对中,考虑 (4+1) x(4+1) 的得分矩阵 δ. 在氨基酸序列比对中, 得分矩阵的大小为 (20+1)x(20+1) . 增加一个 1 是为了比较一个空位 “-”. 得分算法为: si-1,j-1 + δ (vi, wj) si,j = max s i-1,j + δ (vi, -) s i,j-1 + δ (-, wj) 测定相似度 检测两条序列的相似度 基于序列相同的百分比 identity 基于保守序列 conservation 序列相同的百分比 两条氨基酸或核酸序列相似的程度 产生得分矩阵 基于生物学证据产生得分矩阵. 比对可看作是一条序列突变而得到另一条序列。 有些突变对蛋白质功能得影响很小,因此有些罚分δ(vi , wj),将低于另一些错配或插入引起的罚分 记分矩阵:示例 保守序列 氨基酸的改变倾向于保持原有残基的物化性质。 极性 to 极性 aspartate ? glutamate 非极性 to 非极性 alanine ? valine 类似功能残基 leucine to isoleucine 得分矩阵 蛋白质序列比较常用的得分矩阵 PAM BLOSUM DNA 得分矩阵 DNA 的保守性低于蛋白质的保守性 在核苷酸水平比较编码区的效率低 PAM 可接受点突变Point Accepted Mutation (Dayhoff et al.) 1 PAM = PAM1 =蛋白质“平均”氨基酸突变为 1% 的次数 After 100 PAMs of evolution, 并非所有的残基都改变了 有些残基突变了许多次 有些残基返回到其原有的状态 有些残基根本没有变 PAMX PAMx = PAM1x PAM250 = PAM1250 PAM250 是普遍应用的得分矩阵: BLOSUM 区段替换矩阵(Blocks Substitution Matrix) 利用相关蛋白质的局部比对中的区段替换频率计算得分 矩阵名称表示进化距离 有62%或以上相同的串用于产生BLOSUM62 矩阵 Blosum50 记分矩阵 全局比对和局部比对 全局比对是试图找到顶点 (0,0)到 (n,m)的最长编辑距离,是寻找整个两条字符串之间的相似性 局部比对是试图找到任一顶点(i,j) 到另一顶点(i’, j’)的最长编辑距离。 在边的加权值有负分的编辑图中,局部比对将高于全局比对得分。 全局比对和局部比对(cont’d) 局部比对:示例 局部比对: Why? 不同物种的两个基因可能在短的保守区域相似,而其它区域不同 例如: Homeobox 基因在不同生物种类中拥有短的保守序列homeodomain. 由于进行整个序列的比对,因此全局比对无法找到homeodomain。 局部联配问题 目的: 找到两条字符串最佳的局部比对 输入 : 字符串 v, w 及记分矩阵 δ 输出 : 满足下述条件的v 和 w 的子字符串:在δ下的全局联配得分是v 与 w 的所有子字符串的全局联配得分为最大者 局部联配问题 运行时间长 O(n4): - 在一个大小为 n x n 的网格中,有大约~n2 个顶点 (i,j) 被看作是一个源点. - 对于计算从(i,j) 到 (i’,j’) 的边,需要运行的时间是O(n2). 通过增加“
文档评论(0)