生物信息学序列库和文献库的.docVIP

下载本文档

1
0
约8.03千字
约 7页
2019-03-30 发布于江苏
举报
版权申诉

生物信息学序列库和文献库的.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

生物信息学序列库与文献库的融合模式浅析1 1本文受中国科学院国家科学图书馆研究生科研项目资助 2杨文 1984年生硕士研究生 HYPERLINK mailto:邮箱yangw@ 邮箱yangw@。杨文2 韩涛孙志茹（国家科学图书馆，北京100080）【摘要】生物信息学发展到后基因组时代，生物学家对信息获取日益提升的需求必然要求科学数据库与科学文献库实现异构数据源的整合，最终达到跨多种异构库知识发现的目的。在分析生物信息学领域已有数据库、整合平台的基础上，归结了目前生物学数据库融合的两种模式：交叉引用模式和集成模式，并总结了目前系统的不足及数据库融合面临的困难，为进一步研究序列库与文献库的融合打下基础。【关键词】生物信息学科学数据库融合【分类号】G350 Fusion Model Exploration of Sequence Databases and Literature Databases in Bioinformatics Yang Wen Han Tao Sun Zhiru （National Science Library, Beijing 100080） [Abstract] Bioinformatics has developed to post-genomics era.Biologists need an integrated,synchronized and coherent interface to solve particular scientific problems. The fusion of sequence databases and literature databases is very important for knowledge discovery. By analyzing the existing systems,we conclude 2 various fusion model:cross-reference model and integration model,also make a conclusion of the insufficiency of these systems for further research. [Keywords] Bioinformatics Scientific database fusion 生物信息学是随着20世纪80年代末人类基因组计划而发展起来的。它是现代信息科学、计算机科学、生命科学、数学、物理学、化学、统计学等众多学科相互渗透形成的一门边缘学科。人类基因组产生了大量数据，并且随着测序技术的提高，各种数据呈指数增长，这些数据一部分是科学数据，如基因序列、蛋白质序列、蛋白质三维结构、基因图谱等，另外还有很大一部分是文献数据。生物信息学的目的就是利用这些数据来破译遗传密码，揭示生命活动过程的本质。建立生物信息学数据库对于信息的收集、整理、检索及分析起了举足轻重的作用，生命科学研究的深入需要全方位资源的整合，在知识发现、文本挖掘技术发展的今天，异构数据源之间的整合已提上日程。 1 生物信息学数据库的发展随着技术的进步与研究需求的变化，生物信息学数据库的发展呈现出以下趋势。 1.1 生物信息学科学数据库目前生物信息学数据库专业机构主要有：美国NCBI、欧洲EBI、日本CBI、瑞士SIB、美欧日国际核酸序列数据库合作EMBL/DDBJ/GenBank。有调查显示，至2005年，生物信息学数据库总数已达719[1]。早期为满足研究需要而产生的数据库主要由以上组织开发建立，以保存测序结果为目的，主要分为以下几类：核酸序列数据库、蛋白质序列数据库、结构数据库、基因组数据库、特种物种（如果蝇、酵母）基因组库等。为满足检索需求，随之开发了专门的序列查询及分析软件，如BLAST、FASTA等。 1.2 生物信息学数据库整合系统整合大量异构的生物信息资源，提供方便、高效的获取高质量信息的手段，以及从这些离散的但又互相关联的数据库中分析并挖掘出有用的信息是进行现代生物学研究的前提和关键，也是生物信息学研究非常急迫的问题。为此，许多著名的生物信息中心都开发了他们自己的解决方案，如：英国的SRS，美国NCBI的Entrez，耶鲁大学的E.coli遗传信息数据库体系Genera，日本的基因组数据库网络体系GenomeNet，加拿大的人类基因组联邦数据库GDB，瑞士蛋白质知识库ExPAsy等。其中最为著名的，使用比较广泛的是SRS和Entrez两大系统[2]。这些系统采取的方法都是建立分散在不同的异构数据库中数据之间的简单链接，可以实现文献与科学数据的同一界面检索。虽然这些数据库本身没有有机地整合在一起，不能实现智