- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
文献数据库及全文检索技术
中国化学文献数据库建设的回顾与今后发展
王 源
(中国科学院上海有机化学有机所,中国科学院计算机化学实验室.上海200032)
摘要回顾了中国化学文献数据库的发展及在此过程中解决的若干技术问题。其
中包括数据结构、用户检索界面、机助标引、自动标引、后控规范、汉字全文检索、
光盘研制等。根据现实问题提出了未来发展计划以及应该优先解决的问题。认
为应不失时机地发展国外核心期刊文献数据库,应该提升加工深度,同时提出化
学文献数据库应充分反映化学文献的特点,要加强化学物质的处理。作为自动标
引和自然语言提问处理的基础,首先要建立一个具有丰富语言关系链接的大
词库。
关键词文献数据库化学 数据加工
中国化学文献数据库是我院建立的第一个文献数据库,是院数据库办公室直接领导
的第一个数据库,也是我国最早以中国源的文献为对象建立的文献型数据库。现在,数据
库已经包含有33.1万条文献记录,并作为一个光盘数据库产品正式发行。如果从建立这
一文献数据库前的一个试验模型算起,已经有20年历程。在建立这一文献数据库过程
中。除了最终提供一个数据库服务于化学化工及相关领域的科研工作外,期间在文献数据
库建立的技术和方法方面也作了大量的探索,系统地发展了文献数据库建设的技术。本
文将回顾这一文献数据库建立过程中的技术进展,同时阐述为新世纪文献数据库进一步
发展正在做的部分工作。
一、建立文献数据库过程中的技术发展
1.开发环境、数据结构和公共命令
·209·
其数据结构是一种支持双语种对应关系和双向拉链型的文件系统…。在该系统中,用作
索引键的检索用语在文献数据库中只出现一次,例如对于某作者,数据库中可能反映了他
发表的论文有100多篇,但他的名字在整个数据库中只出现一次。数据库的另一特点就
是按照公共命令的思路进行检索界面的设计。到目前为止,这一系统还在运行,也许,这
是我国运行寿命最长的文献数据库软件。
首先我们讨论开发和运行环境的选择。选用Fortran作为开发工具是许多人无法理
解的。当时,开发情报检索软件通常使用COBOL语言,为开发方便选用数据库管理系统
也不在少数。对我们来说,别无选择,因为其他项目均用Fortran,此外在中科院化学数据
库研究中,大家约定使用Fortran语言。当时我们引进的VAX11/780计算机也只配备了
在当时的计算机硬件条件下,无法实用。现在回顾,当时的选择是正确的,也是我们的系
统能长时间运行和在所有VMS环境中方便移植的原因之一。实际上无论是COBOL还
是Fortran,只要能支持字符串处理和文件管理,就可以作为数据库的开发工具,如果使用
新开发工具,而这方面的代价不小。笔者所研制的其他依赖工具而开发的数据库,随着硬
件平台的升级,软件不作投入就难以继续使用。由此可见,工具依赖性小的系统是有其一
定的特点的。根据我的体会,选用工具一定要使用稳定的工具,也不必围绕着不断出现的
工具转。我们的目的是维持一个稳定的数据库提供服务。对用户来说,所谓的稳定是功
能稳定,界面稳定。
公共命令属当时的正确选择,最初我们设计的检索软件是交互提示式的界面,后来受
上海市建立公共信息网公共命令集的启发[2】,立即改变,按国际联机检索主流系统Dialog
的检索命令,选择最基本的几条命令设计软件,此时,我们仔细分析了Dialog的命令、功
能,研究其与数据结构的关系,并推测其数据结构。进行了整体设计。关于数据结构,除
了从功能上考虑外,当时考虑较多的是储存空间,现在看来无此必要。双向拉链的结构使
储存空间减少,但数据库维护的软件工作量很大。
2.加工流程的发展
建立文献数据库的效率和质量控制均取决于加工流程。为改进加工流程,我们研制
了一系列支撑软件。这里主要有基于微机的辅助标引软件【3]、自动标引软件【引、后控规
范等【5J。过去,在文献收集标引阶段,主要是填写工作单,翻阅主题词表找词进行标引,
效率极低,且质量差。采用微机辅助标引后,就把工作流程改变为先输入,再校对、修改和
标引,词表翻阅由计算机查词库取代。微机标引在Windows环境下进行,查字库可利用
粘贴板进行,此外系统还提供前方一致、后方一
文档评论(0)