标准数字化全文检索系统构建的探讨.docVIP

标准数字化全文检索系统构建的探讨.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
标准数字化全文检索系统构建的探讨

标准数字化全文检索系统构建的探讨   [摘 要] 标准数字化全文检索系统是基于DIPS数字文献系统,面向标准的应用、管理和发布的系统。前端采用B/S网络发布结构,提供全文检索服务,检索命中到页,可满足用户在查找标准信息资源时“快、准、全”的要求,极大地提高标准信息资源的获取效率。   [关键词] 标准特色数据库;全文检索;系统构建   [中图分类号] G252.7 [文献标识码] A [文章编号] 1673 - 0194(2016)15- 0168- 03   1 前 言   随着我国经济的飞速发展和社会的不断进步,产品的质量愈发受到社会各阶层的关注。而提高产品质量的关键在于按照标准进行规范生产,标准对于提高产品质量具有巨大的推动作用。特别是在经济全球化的今天,标准担当着产业主流技术载体的重要角色,成为市场竞争的制高点,可以说标准化工作对于国家、行业、企业的可持续的健康发展都具有战略意义。福建省标准化研究院作为专业研究标准化的单位,在不断提高标准化研究水平的同时,更积极探索标准化与信息化相结合的服务模式,于2009年底建成并上线运营福建省标准信息服务平台,打造“一站式”标准服务,平台运营至今已为众多用户提供了高效、优质、准确的服务,取得了显著成效。平台具有以下特点:①操作简便,功能强大,平台为用户提供多个检索条件以提高检索效率,并实现标准电子文本的在线阅览,打印,下载等功能,为用户提供了一个畅通的标准获取渠道;②更新及时,数据准确。平台设有专人持续跟踪,加工,上传各标准组织的公告,确保标准更新的及时性和状态的准确性;③品种齐全,数据丰富。以平台为依托目前共收录国内外标准题录127万余条和国内外标准电子文本23.5万余件。   2 系统设计与实现   2.1 系统网络架构   系统由两台服务器,一个磁盘阵列,一台高速扫描仪和多台式机构成。其中一台服务器用于部署系统前端的程序,另一台服务器用于安装DIPS数字文献系统;磁盘阵列主要用于存储双层PDF等资源;高速扫描仪主要用于将标准纸质文本扫描成PDF格式的电子文本,台式机用于数字化加工,将图像PDF批量OCR识别后转化成双层PDF。整个系统的网络架构如图1所示。   2.2 系统数据库设计与实现   该我院选择DIPS数字文献系统作为系统的数据库,DIPS是一款面向图书、文献、档案等领域数字化建设的信息管理软件。DIPS以全文检索技术为基础、基于互联网内容管理为核心,具备创建并管理数据库,采集挖掘、加工整理和发布信息资源等多项功能,能够满足大容量数据全文检索及多用户并发使用的要求,是新一代集数字化加工、数字内容管理和全文检索为一体的信息管理软件。   2.2.1 系统数据库设计   利用DIPS数据文献系统中的管理模块创建标准全文数据库,确定数据库结构,定义了20个字段,包括:“标准号”,“标准序号”,“标准年代号”,“标准中文名称”,“标准英文名称”,“标准状态”,“组织类别”,“发布日期”,“实施日期”,“作废日期”,“代替标准”,“被代替标准”,“文本页数”,“中标分类号”,“ICS分类号”,“引用标准”,“采用标准”,“修改单”,“备注”,“全文”。   2.2.2 数字化加工   通过程序将现行标准PDF文本按标准组织类别批量导出,然后利用软件Adobe Acrobat进行批量OCR识别,将图像PDF转化成双层PDF,OCR识别完成后Adobe Acrobat将弹出错误提示框以显示OCR识别有误的PDF文本,错误原因主要是由于PDF页面尺寸太大超过了Adobe Acrobat可OCR识别的最大范围,加工人员将这些OCR识别有误的标准号提取出来,利用虚拟打印机Adobe PDF将这些PDF文本转化成规范的PDF文本,再进行OCR识别转化成双层PDF。   2.2.3 标准数据入库   通过程序将已数字化加工的标准文本对应的题录信息从福建省标准信息服务平台的数据库中导出到成Excel文件,形成入库文件。通过软件SQL2DIPS4将标准双层PDF文本和文本对应的题录信息批量导入到DIPS数字文献系统中,完成标准数据入库。   目前DIPS数字文献系统的数据库中包括国家标准(GB),行业标准(包括机械行业JB、化工行业HG、农业行业NY、商品检验行业SN、纺织行业FZ、建筑行业JG、建材行业JC等30多个常用行业组织的标准),福建省地方标准(DB35),累计4万余项标准数据。   2.2.4 数据库维护   在使用过程中如果发现数据库中有重复的标准数据,管理员可以通过DIPS提供的去重工具进行去重,在工具中选择好根据“标准号”这个字段进行去重后,数据库中将只保留ID值最大的标准数据(即新上传的数据),其余重复数据将会被删除。   2.3系

文档评论(0)

151****1926 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档