第三章 序列分析.pptVIP

  1. 1、本文档共92页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
序列的相似性 序列的相似性 一致性(identity): 两个蛋白质有一定数量的氨基酸在排比的位点上是相同的,即如果38个氨基酸的蛋白质中15个位点相同,我们说它们一致性为39.4%. MSDTPSTGFSIIHPTSSEGQVPPPRHLSLTHPVVAKRISFYKSG -------------PRNGTIKIYENPARTFTRPYSAKNITIYKEND 所以, 相似性的数值一定比一致性的要( ) 大 or 相等 or 小 生物序列的同源性 同源性(homology): 指从一些数据中推断出的两个基因或蛋白质序列具有共同祖先的结论,属于质的判断。 就是说A和B的关系上,只有是同源序列,或者非同源序列两种关系。而说A和B的同源性为80%都是不科学的。 第2节 Blast的应用 Blast简介 BLAST 是基于序列相似性的数据库搜索程序。 BLAST是“局部相似性基本查询工具” (Basic Local Alignment Search Tool)的缩写。 主要的blast程序 /Blast.cgi BLAST的应用 具体步骤 1.登陆blast主页 /BLAST/ 2.根据数据类型,选择合适的程序 3.填写表单信息 4.提交任务 5.查看和分析结果 具体步骤 1.登陆blast主页 /BLAST/ 2.根据数据类型,选择合适的程序 3.填写表单信息 4.提交任务 5.查看和分析结果 Part2. 酶切位点分析 只要进行基因工程利用必须用到各种限制性内切酶 如 GGATCC BamHI 进行酶切位点分析的时候,对于构建载体,我们需要知道的信息是你的序列中有/没有某个酶的位点? 为什么? 如果答案是“有”,是什么情况?“没有”又是什么情况? Plasmid vector Sac I XbaI Hind III Hind III Xba I Cloning site SacI Part 3. 基因结构分析/启动子序列分析 1)基因结构分析: 了解基因的内含子/外显子排列方式; 例子1: 水稻6PGDH基因进化分析的结果表明其可能来源于内共生 (基因结构分析表明其没有内含子). 例子2:NHX基因 1)基因结构分析: Genomic DNA cDNA 用softberry预测基因结构 /berry.phtml?topic=fgeneshgroup=programssubgroup=gfind 什么是HMM? Hidden Markov Models (HMMs, 隐马尔可夫模型) 最早是在上个世纪60年代末70年代初提出来的一种概率论模型。进入80年代以后,逐渐被利用在各个领域。主要的应用领域: 语音识别系统。 生物学中的DNA/protein序列的分析。 机器人的控制。 文本文件的信息提取。 什么是HMM? 对于给定的核苷酸序列,我们在位置p处出现的概率依赖于它后核苷酸序列。即任何一个核苷酸的出现并不是完全独立的。 对于基因识别而言,HMM可以分为2种: 按内容搜索:即根据核苷酸和密码子在编码区内的分布规律来确定蛋白质的编码区; 按信号搜索:即通过分析编码区周围的信号(启动子\终止子\各种cis-element等来确定蛋白质的编码区。 大家只要知道HMM是目前生物信息学中应用非常广泛的概率论模型,广泛应用于基因识别,其基本原理基于任何一个序列的出现都不是独立的。 一个例子: 用softberry预测基因结构 2)启动子序列分析: 什么是启动子? 启动子序列,一般在TSS之前2000bp, 了解哪个位点是TSS,哪个是起始ATG? TSS ATG TATA promoter 转录起始位点(transcription start site,TSS) 2)启动子序列分析: 所以,我们必须得到TSS的位置. 如何通过生物信息学方法确定TSS? 首先截取包括ATG之前3000bp和基因的序列采用以下两种方法 1)软件预测,如Softberry; 2)搜索EST数据库; 分析的目的: 2)首先找到ATG前面约3000: 如何通过生物信息学方法确定TSS? 以AF486280为例. 首先要找到包含AF486280的基因组序列. Blastn---1 Blastn---1 Blastn---2 What is EST? Blastn---2 Blastn---2 有什么作用? 对于新基因,可以了解基因的结构特征, 5-UTR和3-UTR 的大小. Blastp Blastp Blastp Blastp Blastp Blastp Blastp Blastp的作用: ①对于已知的蛋白,可以分析

您可能关注的文档

文档评论(0)

docindoc + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档