第四章 生物信息学教程.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第四章 生物信息学教程.ppt

第四讲 DNA和蛋白质生物信息学 CLUSTALX多序列对比的应用 内容提要 成对序列对比的应用 多序列对比的应用 多序列比对的方法 自动多序列比对的算法 Clustalx的使用(clustal法) 实例分析 生物序列的同源性 同源性(homology): 指从一些数据中推断出的两个基因或蛋白质序列具而共同祖先的结论,属于质的判断。就是说A和B的关系上,只有是同源序列,或者非同源序列两种关系。而说A和B的同源性为80%都是不科学的. 序列同源性分析: 是将待研究序列加入到一组与之同源,但来自不同物种的序列中进行多序列同时比较,以确定该序列与其它序列间的同源性大小。这是理论分析方法中最关键的一步。完成这一工作必须使用多序列比较算法。常用的程序包有CLUSTAL等. 相似性与同源性关系 相似性不说明任何的历史过程,而是对两个序列间用一定方法进行比较.尽管同源和相似的定义不同,但这两个术语相互关联,因为显著的相似性通常意味着同源. 两个基因间只有同源或不同源的关系.同源的序列被假设起源于一个我们并不知道的共同的祖先序列,通过反复的分子变化而互相有差异. 成对序列比对的应用 成对序列比对(pairwise alignment):是比较两个序列之间的异同点,允许序列间有一定的错配,是计算机在解决生物学问题中 的一个经典应用. 关键问题: 1.用来评估比度的记分系统 2.用来找到最佳比对的运算法则 3.不同的比对方式包括局部比对(local alignment)和整体比对(global alignment) 多序列对比的应用 多序列比对(multiple sequence alignment,MSA): 将已有的大量相似序列放在一起同时进行比对,并且把比对的结果放在一起. 通过同源性和相似性位点来推测有关比对序列的进化历史 通过对相似功能蛋白质比对分析可以找到哪一部分序列对于功能最重要 多序列对比的应用 具体有以下几方面的应用: 1.序列结构域和基序的寻找 2.基因调节因子预测 3.基因组组装 4.系统发生遗传学分析 序列结构域和基序的寻找 序列基序(motif):指的是一组序列所共有的一段局部保守区域或短的序列模式.长度范围几个到几百乃至数千核苷酸或氨基酸不等. 结构域:指的是一组序列中保守的一段较长的序列,绝大多数用于蛋白质序列.可以是一部分也可以是整个分子. 它们都通过多序列比对产生,可以是固定的序列或是可变的序列.基序通常可以用来预测分子功能或结构特征或分子亲缘关系. 基因调节因子预测 基因表达的主要调节环节是转录的控制,重要的一步是确定每一个基因序列中的调节因子,也就是基因序列中用于与转录因子或其他调节因子结合的区域,这些区域往往具有一定的序列特征或称基序,而且具有一定的保守性. 传统预测方法:通过烦琐的重组DNA技术辅之以报告基因在体外或体内进行功能评估. 现在预测方法:用一种称为进化遗传印记(phylogenetic fingerprinting)的计算方法来寻找比较的序列中的高度保守的基因组区域. 基因组组装 MSA有三个特点: 1.重叠区域所涉及的序列理论上属于相同序列,但由于测序错误可能造成插入或删除. 2.所涉及序列有可能是正向或反向,因而包括对互补序列的比对. 3.序列间关系经常是长度未知的重叠或是较大的序列包含较小的序列. 系统发生遗传学分析 MSA中序列间的变化可以以来推测所代表物种间的亲缘关系.此外,MSA和由其衍生的关系树可以用来探讨同一基因组中同系基因(paralogus genes)间的进化关系或较大蛋白家族内的分类. 用于系统发生遗传学的基因应具备: 基因普遍存在于绝大多数物种而且容易通过其序列的保守性被识别.与此同时,这些基因序列应当有足够的变异来区分亲缘相近的物种. 多序列比对的方法 同源性分析中常常要通过多序列比对来找出序列之间的相互关系,和blast的局部匹配搜索不同,多序列比对大多都是采用全局比对的算法。这样对于采用计算机程序的自动多序列比对是一个非常复杂且耗时的过程,特别是序列数目多,且序列长的情况下. 多序列比对的方法 基本上多序列比对可以分为 1.手工比对(辅助编辑软件如Mega,seaview,Genedoc等) 通过辅助软件的不同颜色显示不同残基,靠分析者的观察来改变比对的状态. 2.计算机程序自动比对 通过特定的算法(如同步法,渐进法等),由计算机程序自动搜索最佳的多序列比对状态. 自动多序列比对的算法 1.同步法 将序列两两比对时的二维动态规划矩阵扩展到三维矩阵。即用矩阵的维数来反映比对的序列数目。这种方法的计算量很大,对于计算机系统的资源要求比

文档评论(0)

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档