3.12寻找保守区域-01-序列标识图WebLogo.pdf

3.12寻找保守区域-01-序列标识图WebLogo.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
《生物信息学》第三章:序列比较(第三部分) 寻找保守区域:序列标识图 WebLogo 如果用一句话来描述你究竟想从多序列比对中得到什么,答案是你想要找到序列中重要 的位置。说得更专业一点,就是要找到保守区域。通过多序列比对下方的星星点点可以大致 发现图 1 中两个红框中的区域比较吸引眼球,因为星星点点特别多!我们稍微回忆一下这些 ” ” 密码的含义:“*”代表这一列残基完全相同;“ : 代表这一列残基或者相同或者相似;“ . 代表这一列残基有相似的但也有不相似的;什么都没有代表这一列残基都不相似。所以我们 寻找的就是星星点点特别多的区域。当然用眼睛来数星星不那么靠谱。我们仍然需要借助软 件来更好的寻来保守区域。 图 1.多序列比对中的保守区域 这里介绍一个新的概念,序列标识图(sequence logo)。序列标识图就是序列的 logo,它 是以图形的方式依次绘出序列比对中各个位置上出现的残基,每个位置上残基的累积可以反 应出该位置上残基的一致性。每个残基对应图形字符的大小与残基在该位置上出现的频率成 正比。 但图形字符的大小并不等于频率百分比,而是经过简单统计计算后转化的结果。图 2 是用一款流行的软件 WebLogo 创建的序列标识图。 图 2. 序列标识图 要创建序列标识图,首先需要一个多序列比对。多序列比对中的一列对应序列标识图中 的一个位置。然后分别计算每一列中不同残基出现的频率,再根据以下公式把频率转换成高 度值,最后根据高度值写出不同残基的彩色字母图形。 如果某一列非常保守,字母高度就高。反之,如果某一列没有什么特征,各种残基都有 出现,杂乱无章,那么就会看到一堆比较矮的字母摞在一起。这里再次强调,字母的高度和 它在某一列中出现的频率成正比,但是并不等于频率。试想一下,如果字母高度就是频率的 话,那么序列标识图中每个位置上字母摞起来的总高度应该是一样的,都是 100%。但是从 图 2 中可以看到,序列标识图上每个位置字母摞起来的总高度是不一样的,这是因为在字母 高度的计算过程中涉及了熵值。某一列中字母出现的情况越混乱,熵值越大,字母越矮。字 母出现的情况越有规律,熵值越小,字母越高。所以序列标识图可以很好的展现多序列比对 中每一列的保守程度,即,它们是杂乱无章的,还有有规律可循的。并且把可循的规律图形 化的展现出来。这就是我们为什么要给序列打上 logo 的原因。 WebLogo 是一款在 线创建序列标识 图的软件 主页面上点“Create your own logos”,然后输入多序列比对(图 2)。WebLogo 可以接受 大多数常见的多序列比对格式。示例文件 promoter.fasta 是一组启动子序列的多序列比对, 以 FASTA 格式存储。FASTA 格式的多序列比对要求把多序列比对中的每一条序列连同插入 的空位一起按 FASTA 格式书写,写完一条序列再写下一条。这和之前讲过的 Clustal 格式不 太一样。在序列输入框的下方可以设置不同参数,以定义序列标识图的样式,比如设置序列 标识图的创建范围、定义字母的颜色方案等。保持所有参数默认,点“Create WebLogo”。 图 3 为创建出的序列标识图。从图中可以清晰的看到:输入的这些启动子序列上 TATA-Box 的共有特征序列,以及它们出现的位置。

文档评论(0)

恬淡虚无 + 关注
实名认证
内容提供者

学高为师,身正为范.师者,传道授业解惑也。做一个有理想,有道德,有思想,有文化,有信念的人。 学无止境:活到老,学到老!有缘学习更多关注桃报:奉献教育,点店铺。

1亿VIP精品文档

相关文档