选修9第四章dna和蛋白质序列比对.pptxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
生物信息学 Bioinformatics;第四章 DNA与蛋白质序列比对;什么是序列比对?;我们为什么关注序列比对?;序列比对的根本任务: 发现序列之间的相似性 辨别序列之间的差异 目的: 相似序列?相似的结构?相似的功能 判别序列之间的同源性?推测序列之间的进化关系 ;一致性(identity): 描述了在每个位点上两条或两条以上的序列的实际相似程度,通过计算排列完的序列上相同的碱基或氨基酸数目衡量。 例如 THISISA-SEQUENCE TH----ATSEQUENCE;7;8;直系同源的定义???:;鉴定直系同源的实际操作标准(practical criteria)为:;例如同是起源于珠蛋白的α珠蛋白、β珠蛋白和肌红蛋白。;相似性和同源性关系;序列比较的基本操作是比对(Alignment) 两个序列的比对是指这两个序列中各个字符的一种一一对应关系,或字符的对比排列 。;一、字母表和序列 二、编辑距离(Edit Distance) 三、序列两两比对的相似性评价 四、打分矩阵(Weight Matrices) ;一、字母表和序列;16;17; ? — 代表字母表 A* — 代表由字母表A中字符所形成的一系列有限长度序列或字符串或序列的集合 a、b、c—代表单独的字符 s、t、u、v—代表A*中的序列 |s|—代表序列s的长度;为了说明序列s子序列和s中单个字符,在s中各字符之间用数字标明分割边界 例如,设s=ACCACGTA,则s可表示为 0A1C2C3A4C5G6T7A8 i:s:j 指明第i位和第j位之间的子序 列, 当然,0 ? i ? j ? |s|。 子序列 0:s: i 称为前缀即prefix(s,i) 子序列 i:s:|s| 称为后缀, 即suffix(s, |s|-i) 有两种特殊的情况,即i=j 或i = j-1。 i:s: i — 为空序列 j-1:s:j —表示s 中的第j 个字符,简记为sj ;子序列:选取s中的某些字符(或删除s中的某些字符)而形成s的子序列 例如: TTT 是 ATATAT的子序列。 子串:是由s中相继的字符所组成。 例如: TAC是AGTACA的子串, 但不是TTGAC的子串(是子序列)。 子串是子序列 子序列不一定是子串 ;字符串操作;(1)两条长度相近的序列相似 ?找出序列的差别 (2)判断一条序列的前缀与另一条序列的后缀相似 (3)判断一条序列是否是另一条序列的子序列 (4)判断两条序列中是否有非常相似的子序列;;;;二、编辑距离(Edit Distance);有两种方法可用于量化两条序列的相似程度: 相似度:它是两个序列的函数,其值越大,表示两个序列越相似 距离:两个序列之间的距离。距离越大,则两个序列的相似度就越小 ;最简单的距离就是海明(Hamming)距离。对于两条长度相等的序列,海明距离等于对应位置字符不同的个数。例如;字符编辑操作(Edit Operation);扩展的编辑操作;三、序列两两比对的相似性评价; s: AGCACAC?A AG?CACACA t: A?CACACTA ACACACT?A —————————————————————————— Match(A, A) Match(A, A) Delete(G, - ) Replace(G, C) Match(C, C) Insert( -, A) Match(A, A) Match(C, C) Match(C, C) Match(A, A) Match(A, A) Match(C, C) Match(C, C) Replace(A, T) Insert( -, T) Delete(C, -) Match(A, A) Match(A, A) 序列AGCACACA和ACACACTA的两种比对结果 ;不同编辑操作的代价不同;得分(score)函数; 例如: s: AGCACAC?A t: A?CACACTA cost=2 s: AGCACAC?A t: A?CACACTA score (s,t)= 5 序列比对的目的是寻找一个得分最大(或代价最小)的比对。;空位罚分(Gap Penalties);空位罚分(Gap Penalties);空位罚分;空位罚分公式;

文档评论(0)

136****1820 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档