- 1、本文档共119页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
一级数据库的搜寻生物08
数据库查寻和数据库搜索 数据库查询 分子生物学数据库的应用可以分为两个主要方面,即数据库查询(database query)和数据库搜索(database search)。数据库查询和数据库搜索是分子生物信息学中两个常用术语。 所谓数据库查询,是指对序列、结构以及各种二次数据库中的注释信息进行关键词匹配查找。 例如,对蛋白质序列数据库SwissProt输入关键词insulin(胰岛素),即可找出该数据库所有胰岛素或与胰岛素有关的序列条目。 数据库查询有时也称数据库检索,它和互联网上通过搜索引擎 (Search engine) 查找需要的信息是一个概念。 数据库查询、数据库检索和数据库搜索这三个词经常混用。 其实,数据库搜索在分子生物信息学中有特定含义,它是指通过特定的序列相似性比对算法,找出核酸或蛋白质序列数据库中与检测序列具有一定程度相似性的序列。 例如,给定一个胰岛素序列,通过数据库搜索,可以在蛋白质序列数据库SwissProt中找出与该检测序列(query sequence)具有一定相似性的序列。 在生物信息学中,数据库搜索是专门针对核酸和蛋白质序列数据库而言,其搜索的对象,不是数据库的注释信息,而是序列信息。 显然,数据库查询和数据库搜索在生物信息学中是两个完全不同的概念,它们所要解决的问题、所采用的方法和得到的结果均不相同 两种方法 描述性语言 序列本身信息 NCBI的Entrez系统 EBI的SRS系统 基于Web界面运行的查询系统 输入查询代码、编号、物种来源、说明、文献、作者、日期、关键词 LocusLink 以基因为中心的查询系统 日本的DBGET Entrez由美国NCBI开发,用于对文献摘要、序列、结构和基因组等数据库进行关键词查询,找出相关的一个或几个数据库条目。 该系统目前主要包括核酸序列数据库、蛋白质序列数据库、基因组数据库、蛋白质结构数据库、生物医学文献摘要数据库、系统分类数据库、人类遗传疾病和遗传缺失在线数据库,以及基因信息数据库、种群亲缘关系核酸序列比对数据库、表达序列标签数据库等。 交叉引用(cross-references) 不能同时从多个数据库开始搜索,而只能从某一类数据库开始,然后在所得到的查询结果中再提供其他相关的数据库信息的链接。这种方式为交叉引用。 查询对象和数据库中单词的实际匹配 意义相近的匹配 Entrez系统比较容易使用,查询速度比SRS快。 Entrez中整合的数据库: Entrez中核酸数据库为: GenBank, EMBL, DDBJ 蛋白质数据库为: Swiss-Prot, PIR, PDB 文献数据库: PubMed 基因组数据库 其他数据库 基本查询功能 主题词(subject)查询 短语 (phrase)查询 作者 (authors)查询 姓+名的第一个缩写字母 序列独特识别(Unique Identifiers)信息 序列收录号(Accession number) 序列鉴定号码(Identification numbers) GI号,自动分配的号码 版本号(version number) 序列分子量(Molecular Weight)查询 区域(Range) 序列收录号[ACCN] 长度[SLEN] 接受日期[MDAT] 蛋白序列分子量[MOLWT] 通配符(Truncating)查询 用*表示 尽管Entez系统使用方便,初次使用时,阅读一下联机帮助文件,按其提供的向导实例练习一遍,以便提高查询效率,很快找到需要的结果。 点击中页面左侧的“Education in teaching resources and on-line turorials”按钮,即可进入其帮助页面。点击“Try a tutorial”,则开始联机向导练习。 检索时,在Entrez首页上的菜单中选择“Nucleotide”即可进入“Entrez Nucleotide Sequence Search(Entrez核苷酸序列检索)”界面,见图2-5。基本检索方法是在检索窗口内直接输入检索词,其检索词输入方法及组配方式相似于Entrez-PubMed的MEDLINE检索。 对核苷酸序列库的相应字段进行限定性检索,需通过点击检索窗口下方的“Limits”链接按钮,进入限定性检索界面,见图2-6。首先在检索框中输入检索词,然后在“Search Field”下拉菜单选项中选择相应的检索字段。 其检索字段包括:Accession(收录登记号)、All Fields(所有字段)Author Name(作者名)、EC/RN Number(CAS化学物质登记号或酶编号)、Feature Key(基因特征词)、Gene Name(基因名)、Issue(发表期
文档评论(0)