- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于CORBA电子资源集成系统应用研究
基于CORBA电子资源集成系统应用研究
摘 要:本文通过分析PDF文档的结构以及CORBA技术的特点,并以PDF文档信息转存至SQL Server中为例,说明了电子图书资源集成系统的实现过程。对系统的体系结构设计以及流程设计进行了说明,以期对电子图书资源的整合起到一定的借鉴作用。
关键词:异构数据;CORBA技术;电子资源;电子文档
中图分类号:TP302.1 文献标识码:A文章编号:1673-8454(2010)09-0020-03
一、引言
随着计算机网络技术的迅猛发展,电子资源的种类越来越多。这些数字信息资源就构成了一个分布式的大型知识库。[1]由于电子资源来源广泛,不可避免地出现了信息源的异构问题。目前图书馆采取了一些措施来实现电子资源的统一管理,但是每种方案都有其局限性,如何合理有效地对各种资源进行组织,把各个异构数据库资源整合起来,实现电子资源的“一站式”查询,为用户提供快捷、方便的数字信息资源检索服务,从而提高图书馆资源的利用率成为当今图书馆建设中的一个新课题。
二、电子资源集成系统
从应用方面来说,电子资源的“一站式”查询涉及两个最核心的问题,那就是应用的集成以及数据的集成与交换。应用的集成包括对现有的各种电子查询系统集成以形成统一的查询平台,此项工作因为涉及面广,实现难度较大;而数据的集成与交换涉及面小,相对易于实现,是异构数据集成中最为重要的问题。
1.电子资源格式分析
电子资源系统集成涉及到各类文档,不同文档的格式各不相同,为便于说明,本文以PDF格式文档为例,说明将电子资源集成到通用数据库中进行管理的方法,使用户能够很方便地检索使用各种格式的电子资源。
PDF文件的物理结构组织格式如下:[2]
::= \\ 文件头
\\ 文件体
\\ 交叉引用表
\\ 文件尾
(1)文件头:用于指明该文件所遵从PDF规范的版本号。
(2)文件体:由一系列的PDF间接对象组成。
(3)交叉引用表:依据存放间接对象地址的索引表,PDF文件中的间接对象可以进行随机存取,无须读入整个文件来定位某个特定的间接对象。
(4)文件尾:文件尾可以让应用程序快速找到交叉引用表以及某些指定的对象。应用程序应该从文件尾读起,根据文件尾提供的信息,PDF的应用程序可以找到交叉引用表和整个PDF文件的根对象,从而控制整个PDF文件。
2.CORBA技术
CORBA很好地结合了面向对象技术和分布式处理技术。它使用一种标准的通信模型,使运行在不同的操作系统、网络协议和硬件结构间的客户和服务器可以实现应用层间的交互。
CORBA技术将面向对象的概念揉合到分布计算中,使得CORBA规范成为开放的、基于客户/服务器模式的、面向对象的分布计算的工业标准。
电子资源集成系统充分考虑到了CORBA的优势,程序利用符合CORBA的中间件技术实现了电子资源系统的集成。
3.通用数据库系统
信息的管理,尤其是有规则的信息管理都是采用数据库系统进行。本系统采用SQL Server 2005作为电子图书资源集成后的数据库系统,将电子资源信息进行归类存放,便于实现“一站式”查询。
4.体系结构设计
基于分层以及模块化设计的原则,系统的体系结构如图1所示。
类型识别模块对接收到的电子文档的类型进行识别,并将电子文档提交给相应的转换模块进行转换。
转换模块是整个系统的关键模块。其任务是接收用户提交的各类电子文档,并通过自动识别程序,对不同种类的电子资源分别调用不同的处理模块,将电子文档的标题、作者、中文摘要、英文摘要、关键词、正文等信息提取出来后,分别标上特殊的标记,然后存储至指定路径的文本文档中。
处理模块是为了使系统准确转换而设置的辅助模块,主要功能是将转换模块得到的文本文档进行核查,对信息分类不准确的情况进行更正,方便存储模块的处理。
存储模块的功能是将由处理模块处理过的文本文档按预定格式存至通用数据库管理系统中,其中,标题、作者、中文摘要、英文摘要、关键词、正文等要分别存放至不同的属性域中,以方便检索、读取。
阅读模块用来完成读者的“一站式”查询。
根据体系结构中各功能模块的作用进行的系统设计,其流程如图2所示。
在实现转换的过程中用到三个库:电子资源文档库(存放电子文档的路径及文件名)、文本文档库(存放将电子文档转换成文本文档后的文本文档的信息)、通用数据库(保存电子信息,以便利用统一的程序对电子资源的信息进行统一化的检索操作)。
集成系统的实现有两个关键点:一是如何连结PDF格式的文档;二是如何将连接的PDF文档中的文字信息读取出来。系统实现采用符
您可能关注的文档
最近下载
- 2025年园林公务员测试题及答案.doc VIP
- 华医网不孕症的中西医药诊治新进展相关试题及答案.doc VIP
- CUDA并行编程从入门到实战指南.docx VIP
- 2025超越健康:重构零售药房的社会价值.pdf VIP
- 机械设备施工专项方案.docx VIP
- 张爱玲经典散文(精选11篇).docx VIP
- 1 审计工作底稿编制指引——货币资金.pdf VIP
- 《铁路调度指挥及控制系统》课件——CTC系统概述.pptx VIP
- 高中思想政治必修第1册 中国特色社会主义 第3课 只有中国特色社会主义才能发展中国【复习课件】.ppt VIP
- 信息技术(基础模块)(WPS Office)(AI协同)(微课版)课件 模块七 WPS AI应用.pptx
原创力文档


文档评论(0)