- 1、本文档共51页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第三章 序列两两比对 王红岩 主要内容 序言 序列比对的方法 比对用到的得分矩阵 序列比对的统计学显著性 总结 序 言 序列比较是生物信息分析的基础。它是分析新测定序列结构与功能的第一阶段。随着生物序列以指数级速度被测定出来,通过对新测定序列与数据库中已有的序列进行比较来推断新序列功能和进化关系变的方法变得越来越重要,这种比较最基本的方法是序列比对,也就是比较序列来找出一种共同的字符模式以建立相关序列的残基-残基之间的一致性。序列两两比对就是对两条序列的比对,它是数据库相似性搜索的基础。 序 言 进化基础 DNA和蛋白质是进化的产物。它们可以被认为是编码数百万年进化史的分子化石。在进化史上,这些分子经历了随机变化过程,期中一些被进化所选择而保留了下来。这些被选择的序列逐渐积累突变和交叉,进化的痕迹在序列的某些部分被保留下来从而可以识别它们共同的祖先。进化痕迹的存在是由于一些对序列结构和功能起关键作用的残基倾向于被自然选择所保留;而另一些不起关键作用的残基倾向于频繁的改变。例如,一个酵母家族的活性位点残基倾向于被保存下来是由于它们对催化功能起作用。所以,通过序列比对,保守的和改变了的序列模式就能被识别出来。在比对中序列的保守度体现了不同序列之间的进化关系。反之,序列之间的差别反映了在进化的过程中序列以替换、插入和删除残基的形式发生了变化。 序 言 识别序列的进化关系能帮助我们描绘未知序列的功能。当一组序列的比对显示出了显著的相似性,我们就认为它们属于同一个家族。如果这个家族中一个成员的结构或功能已知,那么它的这些信息就可以推广到家族中其它没有通过实验验证的序列。所以序列比对可以用于预测未知结构和功能的序列的结构和功能。 序列比对可以用来推断两条序列是否是相关的。如果两条序列显著相似,那么这种相似性是随机产生的可能性非常小,也就是说这两条序列有共同的进化起源。当一个序列比对被正确的做出来,它就反应了两条序列的进化关系:相同位置出现不同残基的区域代表残基替换;一条序列的残基对应另一条序列的空位的区域代表在进化的过程中一条序列出现过残基插入或删除。有一种情况也是可能的,那就是来源于同一祖先的两条序列在某种程度上分离以至于它们有共同祖先的关系已经不能从序列的水平上识别了。如果那样的话,它们的进化距离就必须通过其它的方法识别了。 序 言 序列同源(homology)与序列相似(similarity) 序列同源是序列分析的一个重要概念。当两条序列来源于共同的进化祖先我们就说它们是同源关系。一个相关但不同的术语是序列相似,它是指比对的残基在理化性质,如大小,带电,疏水性等方面相似的程度。 序列同源是根据序列比对时两条序列相似性高到一定程度推导出来的两条序列具有共同祖先的一种关系。而序列相似通过观察序列比对结果直接得出的一种结论。序列相似可以用百分比来量化,而序列同源只能取“是“或“不是“。 大体说来,如果两条序列的相似性足够高,我们就可以认为它们是同源的。但是在实际问题中,到底多高的相似性才能认为是同源的是不清除的。答案依赖于被处理的序列类型和序列的长度。 序 言 序列同源(homology)与序列相似(similarity) 对于DNA序列,由于只存在四种碱基,两条不相关的序列同一位置至少有25%的机会相同,而对于蛋白质序列,一共有20中氨基酸,所以不相关的序列中出现同一氨基酸的概率为5%。序列长度也是一个关键因素。序列越短随机出现相同的残基的概率就高,序列越长随机相同的概率就越小。 这就要求对短的序列给予高的阈值来判断它们同源。例如,对于有100个氨基酸的蛋白质序列,如果全局比对有30%或更高的残基相同,就认为它们很有可能同源,这个范围被称为“安全范围”;如果有20%~30%的氨基酸相同,它们的同源关系就不那么肯定了,这个范围被称为“模糊范围”;如果有低于20%的氨基酸相同,那么就很难认为它们具有同源关系,这个范围被称为“黑暗范围”(P33图3.1)。这是一种不精确的方法,尤其是对模糊范围很难判定是否同源,后面介绍的序列比对的统计学上的显著性将会给出精确的方法判断序列是否同源。 序 言 序列相似(similarity)与序列一致(identity) 序列比对中用到的另一对相关术语是序列相似与序列一致。这两个概念对于核苷酸序列是同义的。而对于蛋白质序列,这两个概念是非常不同的。在蛋白质序列比对中,序列一致是指待比对的两条序列中相同残基匹配的比例;序列相似是指待比对的两条序列中很容易彼此替
您可能关注的文档
- 第一章常用数值分析方法§3插值法与曲线拟合.ppt
- 第一章微机原理简介.ppt
- 第一章总论(会计学原理-西南财大).ppt
- 第一章操作系统概述1.ppt
- 第一章教育研究方法概述.ppt
- 第一章数据与统计学.ppt
- 第一章数据库基础概述.ppt
- 第一章旅游合同.ppt
- 第一章流体力学绪论.ppt
- 第一章流体的力学性质.ppt
- 2025年地铁职业技能鉴定考前冲刺练习附答案详解.docx
- 2025年地铁职业技能鉴定考前冲刺练习题及完整答案详解(网校专用).docx
- 2025年地铁职业技能鉴定考前冲刺练习题及完整答案详解【易错题】.docx
- 2025年地铁职业技能鉴定考前冲刺练习题【基础题】附答案详解.docx
- 2025年地铁职业技能鉴定考前冲刺练习题【名师推荐】附答案详解.docx
- 2025年地铁职业技能鉴定考前冲刺练习题及参考答案详解【满分必刷】.docx
- 2025年地铁职业技能鉴定考前冲刺练习附答案详解(考试直接用).docx
- 2025年地铁职业技能鉴定考前冲刺练习题【能力提升】附答案详解.docx
- T_STIC 120092-2024 人工智能科技企业孵化器服务规范.docx
- 2025年地铁职业技能鉴定考前冲刺练习题及完整答案详解一套.docx
文档评论(0)