[理学]数据库查询和数据库搜索.ppt

[理学]数据库查询和数据库搜索

第 三 章 数据库查询和数据库搜索 简 介 分子生物数据库的应用可以分为两个主要方面,即数据库查询(databaase query)和数据库搜索(database search) 。 所谓数据库查询,是指对序列、结构以及各种二次数据库中的注释信息进行关键词匹配查找。 例如,对蛋白质序列数据库Swiss-Prot输入关键词insulin(胰岛素),即可找出该数据库所有胰岛素或与胰岛素有关的序列条目(Entry)。 数据库查询有时也称数据库检索,它和互联网上通过搜索引擎 (Search engine) 查找需要的信息是一个概念。 数据库查询、数据库检索和数据库搜索这三个词经常混用。 其实,数据库搜索在分子生物信息学中有特定含义,它是指通过特定的序列相似性比对算法,找出核酸或蛋白质序列数据库中与检测序列具有一定程度相似性的序列。 例如,给定一个胰岛素序列,通过数据库搜索,可以在蛋白质序列数据库Swiss-Prot中找出与该检测序列(query sequence)具有一定相似性的序列。 常用数据库查询系统 Entrez系统 SRS系统 Entrez数据库查询系统提供的数据库 数据库名称 数据库内容 PubMed 生物医学文献MedLine摘要 GenBank 核算序列 Proteins SWISSPORT PIR 以及 GENBANK翻译得到的蛋白质序列 Structures PDB三维结构数据库 Genomes 已经完成和正在进行的模式 OMIM 人类遗传疾病和遗传遗失 在线数据库 Taxonomy 系统分类信息 LocusLink 基因关联信息 PopSet 具有亲缘关系的种群之间 核酸序列同源性比对结果 生物基因信息 使用Medline UID, PubMed ID和 Seq ID进行检索时,在栏目框中要输入数字。如要输入多个数字,中间要用空格或逗号隔开。并选择相对应的检索领域 对于蛋白和核酸文件:   GenBank/GenPept格式: 标准的GenBank或GenPept格式   Report格式:GenBank格式   ASN.1格式   FASTA格式   图形格式(Graphic View) 对于结构文件:   结构总结格式:结构的基本信息,可以看三维结构   ASN.1格式: 例如:需要检索蜘蛛毒素的核苷酸序列 在检索栏中输入“spider toxin”,点击起始按钮“Go”,则可得到核酸序列数据库GenBank中和蜘蛛毒素相关的序列条目,一共81条。 GenBank和EMBL等核酸序列数据库中的大部分数据,是由生物学家通过计算机网络直接提交,或通过计算机程序直接从大规模序列测定所得结果送入数据库中,没有严格的标准。 在数据库查询时,经常会遇到“想找的找不到,找到的却不是”这样的问题。 例如,上述“spider toxin”查询所得到的17个序列条目,有很大一部分是重复的;而我国特有蜘蛛“虎纹捕鸟蛛”的毒素(Huwentoxin)却没有检索到。这是因为作者在提交该序列时,使用了“Huwentoxin”,而没有使用“spider toxin”。因此,必须输入“Huwentoxin”,才能找到该,序列条目。 点击右上方“More about”下的“Entrez”,则进入Entrez使用详解。 点击“Try a tutorial”,则开始联机向导练习。 点击预览查询按钮(Preview/Index),检索栏中会增加一个“Preview”按钮,输入关键词后,若点击“Preview”按钮,则不列出具体查询结果,而只列出查询到的数据条目数。 利用这一辅助功能,可以提高查询速度,并对查询结果有个初步了解,以便对查询结果作进一步处理,缩小查询范围。 点击“History”按钮,则可以查看查询过程的记录,对每次查询结

文档评论(0)

1亿VIP精品文档

相关文档