科学数据科学文献相关关系研究——以生物信息学为例.doc

科学数据科学文献相关关系研究——以生物信息学为例.doc

科学数据科学文献相关关系研究——以生物信息学为例

科学数据与科学文献相关关系研究 ——以生物信息学为例 韩涛 (中国科学院 北京 100080;中国科学院研究生院 北京 100049)realize the integrated, synchronized and coherent information services and knowledge discovery cross the heterogeneous database. Regarding Bioinformatics as example, two kinds of relationship between scientific data and literature are studied: exterior relationship and interior relationship. The former is focused on the cross-reference relation based on the exterior similarity. The latter achieves the realization of cluster and relevancy at the level of content and up to knowledge. Keywords: scientific data, scientific literature, relationship, cross-reference, knowledge relevancy 1 引言 科学文献已经不是科学研究的唯一产出,许多学科在科研过程中会产出海量的科学数据。如何将科学数据与文献很好的结合在一起,如何使其共同服务于科学研究活动,是一个迫切需要解决的问题。本文将以生物信息学为例,分析该学科中科学数据与科学文献的相关关系,从而为科学数据与文献的进一步融合与综合应用提供基础和依据。 生物信息学产生基因序列、蛋白质结构等科学数据,各种数据呈指数增长,形成该学科丰富多样的科学数据库。除此之外,文献也是该学科的一个重要产出。两种产出并举,是生物信息学的一个重要特征。科学数据库中的信息是由生物学语言来表达,生物学语言的翻译由文献来完成的,相对于科学数据,科学文献包含的信息更易理解和接受。生物学家不仅需要基因本身的信息,还需要有关基因功能分析的文献,这种需求是生物信息学迫切需要综合科学数据与科学文献两种资源进行科学研究的重要推动力。 不仅生物信息学,还有很多其他学科都有类似的特征和需求:科学数据和科学文献是科研活动中不可或缺的重要资源;科学数据和科学文献的综合利用是学科发展的新的需求。为实现两者的综合应用,本文选取在这个方面发展比较成熟的生物信息学为例,重点分析科学数据和文献的相关关系,即: (1)从外部关联的角度研究生物信息学领域科学数据与文献的相关关系,着重研究两者的交叉引用关系; (2)从内部关联的角度研究生物信息学领域科学数据与文献的相关关系,分两个层次进行。浅层次,文献与科学数据从字面上依某一科学数据相关,即围绕某一科学数据,相关的文献集和科学数据集如何聚类。深层次,文献与科学数据从语义上依某一主题相关,即围绕某一主题,相关的科学数据集和文献集如何进行知识发现、知识关联。深层次的研究围绕主题展开,会涉及文献的关键词、摘要和科学数据的功能描述。本文研究的层次如图1所示。 图1 本文研究的内容和层次 2 外部关联 2.1 外部相似性 文献数据库用篇名、著者、机构、关键词、期刊名等描述文献记录。生物信息学采用类似的方法来描述各种数据,从而使得这些数据具备了与文献相类似的情报特征。表1列出科学数据(GenBank)和文献(PubMed)的部分描述信息的比对情况。 表1 数据与文献描述信息比对表 数据(Genbank) 文献(PubMed) 描述信息 信息来源 描述信息 信息来源 序列名称 LOCUS 文献题名 TITLE 序列最近提交时间 LOCUS 文献发表时间 PUBLICATION DATE 序列简要说明 DEFINITION 文献摘要 ABSTRACT 序列编号 ACCESSION PUBMED编号 PMID 与序列相关的关键词 KEYWOEDS 标引词(MeSH) MESH TERMS 相关文献 REFERENCE 参考文献 REFERENCE 序列提交者 AUTHORS 文献作者 AUTHOR 提交者所在单位 JOURNAL 文献作者所在单位 AUTHOR 观察科学数据与文献的描述信息可以发现,两者拥有许多相似性,它们之间可以以此建立关联,如一个作者既可以是序列提交者,也可以是文献作者,用作者名可以在序列库中检索此人所提交的所有序列数据,还可以在文献库中检索他的所有文章,由此这样的一

文档评论(0)

1亿VIP精品文档

相关文档