生物信息学第二章分子生物信息数据库.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第二章 分子生物信息数据库 山西农业大学动物科技学院 主要内容 分子生物信息数据库简介 序列数据库 基因组数据库 结构数据库 二次数据库 数据库查询和数据库搜索 六、数据库查询和数据库搜索 数据库查询(database query):对序列、结构以及各种二次数据库中的注释信息进行关键词匹配查找。 例如,在SWISS-PROT输入关键词insulin,即可找出该数据库所有胰岛素或和胰岛素相关的序列条目(entry)。 数据库搜索(database search):通过特定的序列相似性比对算法,找出核酸或蛋白质序列数据库中与检测序列具有一定程度相似性的序列。 例如,给定一个胰岛素氨基酸残基序列,通过在SWISS-PROT数据库中检索,找出与其有一定相似性的序列。 在生物信息学中,数据库搜索是专门针对核酸和蛋白质序列数据库而言的,其搜索的对象不是注释信息,而是序列信息。 显然,数据库查询和数据库搜索是两个截然不同的概念,它们所要解决的问题、所采用的方法和得到的结果均不相同。 (一)数据库查询系统 1、Entrez 由美国NCBI开发,用于对文献摘要、序列、结构和基因组等数据库进行关键词查询,找出相关的一个或几个数据库条目(entry) 。 Entrez数据库查询系统提供的数据库 Entrez系统的辅助功能 限定查询范围(Limits) 预览查询结果(Preview/Index)不列出具体查询结果,只列出查询到的序列的条目数 查看查询记录(History) 操作剪贴板(Clipboard) Entrez系统的特点 把序列、结构、文献、基因组、系统分类等不同类型的数据库有机地结合在一起,通过超文本链接,用户可以从一个数据库直接转入另一个数据库。此外,把数据库和应用程序结合在一起。 课后作业 2 如何了解斑马鱼ATF4基因的最新研究进展? 目前生物信息学有哪些研究热点? 课后作业 2 如何了解牛ADRB3基因的最新研究进展? 目前生物信息学有哪些研究热点? (一)数据库查询系统 2、 SRS SRS (sequence retrieval system)是EBI开发的数据库查询工具。 SRS是欧洲各国主要生物信息中心必备的数据库查询系统。 SRS已经发展为商业软件,学术单位可以免费使用。 与Entrez不同,SRS是一个开放的数据库查询系统,即不同的SRS查询系统可以根据需要安装不同的数据库。目前,共有300多个数据库安装在世界各地的SRS服务器上。 SRS系统的特点 统一的用户界面 高效的查询功能 灵活的指针链接 方便的程序接口 开放的管理模式 同一的开发平台 (二)数据库搜索 新测定的碱基序列或氨基酸序列,往往需要通过数据库搜索,找出具有一定相似性的同源序列,以推测未知序列可能属于哪个家族,具有哪些生物学功能。 数据库搜索的基础是序列的相似性比对,即序列比对( alignment)。 检测序列(probe sequence):新测定的、希望通过数据库搜索确定其性质或功能的序列。 目标序列(subject sequence):通过数据库搜索得到的和检测序列具有一定相似性的序列。 数据库搜索的任务和目的 1.任务 发现序列之间的相似性 辨别序列之间的差异 2.目的 相似序列 ? 相似的结构和功能 判别序列之间的同源性 推测序列之间的进化关系 1、核苷酸碱基和氨基酸残基代码 在实际DNA序列数据库中,由于序列测定的原因,个别碱基可能无法确定,称为歧义碱基,通常用A、T、C、G之外的字母表示。? 蛋白质序列由20种氨基酸残基组成,分别用20个英文字母表示。? 2、相似性和同源性 数据库搜索的基础是序列的相似性比对;数据库搜索的主要目的之一是寻找同源序列。 同源序列是指从某一共同祖先经趋异进化而形成的不同序列。 相似性( similarity )和同源性(homology) 是两个完全不同的概念。 相似性是指序列比对过程中,检测序列和目标序列之间相同碱基或氨基酸残基序列所占比例的高低。 当相似程度高于50%时,比较容易推测检测序列和目标序列可能是同源序列;当相似性低于20%时,难以或者根本无法确定两者可能是同源序列。 “具有50%同源性”,“这些序列高度同源”等说法是错误的! 3、局部相似性和整体相似性 在序列比对过程中,需要在检测序列或目标序列中引入空位,表示插入或缺失。 序列比对依赖于数学模型,大体上分两类: 整体比对(Global alignment):从序列全长出发,考虑序列的整体相似性。 局部比对(Local alignment) :考虑序列部分区域的相似性。 不同的数学模型可以从不同的角度反映序列的生物学特性。模型参数设置的不同也会导致比对结果的不同。 采用局部比对得到的结果不

您可能关注的文档

文档评论(0)

autohhh + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档