双层PDF技术在档案管理中的应用.docxVIP

下载本文档

8
0
约1.27万字
约 4页
2017-05-17 发布于重庆
举报
版权申诉

双层PDF技术在档案管理中的应用.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

查看更多

双层PDF技术在档案管理中的应用

PAGE PAGE 4 双层PDF文档的全文检索技术在数字档案馆中的应用【摘要】本文通过基于双层PDF文档的全文检索技术运用于B/S结构的档案管理系统的研究实践，实现了高效、快捷的档案检索，实现了高查全率和高查准率，界面友好，可靠安全，扩展性强。【关键词】双层PDF 全文检索数字档案馆【分类号】G270 随着社会信息化程度的提高，人们对档案信息资源的依赖程序也越来越高，对高效率的档案资源管理、检索利用的需求也越来越迫切，发展数字档案馆是社会发展的必然，数字档案馆是一个提供档案远程服务和信息共享的平台。近年来，数字档案馆的研究和建设也如火如荼的开展起来，数字档案馆的平台呈现多样化，档案数字化加工也存在着不同标准，建设数字档案馆的最终目标都是为了档案永久存储和高效利用，本文以中南大学数字档案馆建设实例，着重讨论数字档案馆建设中的全文检索技术。 1 概述 1.1 全文检索全文检索是计算机程序通过扫描文件中的每一个词，对每一个词建立一个索引，指明该词在文章中出现的次数和位置。当用户查询时根据索引进行查找，类似于通过字典的检索字表查字的过程。　　档案的收藏是为了利用，档案检索应该把查全率摆在首位，兼顾查准率。数字档案馆要提供便捷的查询和高查全率，必须建设全文检索系统，全文检索系统由索引模块、分词模块、检索模块和存储模块等构成。 1.2 双层PDF技术双层PDF文件是一种包含Text层和Image层的多层结构PDF格式文件，两层内容位置上一一对应。Image层是原始图像，保留了原始档案的效果；Text层是Image层的识别结果，支持选择、检索和复制等功能。通过程序控制可实现两个图层的任意显示和切换，可实现检索词的精确定位。双层PDF加工是指将其它文件（可以是WORD、也可以是图像文件）转换，或者将标准纸质文档通过扫描后，经过去污、修正和OCR识别，通过软件生成双层PDF文档，然后挂接到档案管理系统的相应目录下。 1.3全文检索的意义全文检索是一种很重要的检索途径，弥补了目录检索的不足，也解决了目录著录不全、不规范等问题，大幅度提高了查全率。由于全文检索不是直接访问数据库，而是通过对数据库中的数据或者对双层PDF文件的Text层进行索引，因此用户搜索对数据库的压力为零，可以达到毫秒级的检索速度和每秒数百次的并发访问，大大提升检索速度。 2 全文检索在数字档案馆的实现 2.1 创建全文数据库我们采用湖南德立信软件开发有限公司的档案数字化加工系统和PDF车间进行纸质档案的数字化加工，实行流水线作业，将档案扫描加工为电子档案；使用双层PDF车间，将文件识别为文字，然后再将Text层和Image层组合成为一个完整的双层PDF文件。我们仍然采用目前技术成熟、广为流行的基于目录数据库挂接方式来实现PDF文件的挂接，对档案内容数据及其元数据等相关信息建立永久联系，形成数据包。 2.2 创建索引将制作好的PDF文件和数据包通过调用德立信全文检索系统（Delisun Text）内核函数建立对应的索引文件，抓取和解析数据，创建索引的过程实际上也就是将数字化档案原文及其原数据（包括结构化和非结构化数据）信息提取并创建索引文件的过程。 2.2.1索引创建：为了对文档进行索引，Delisun Text 提供了五个基础的类， Document、 Field、IndexWriter、Analyzer、Directory。 1、首先指定生成Index目录。 2、建立索引器indexWriter，生成index对象，把一个个的 Document 对象加到索引中来。 3、建立信息字段对象Field，描述文档的某个属性，如文件标题和内容可以用两个 Field 对象分别描述。 4、建立文档对象Document，用来描述文档，内容可以从TXT、HTML等文档及数据库等多种途径获得，一个 Document 对象由多个 Field 对象组成的。也可以把一个 Document 对象看作数据库中的一个记录，而每个 Field 对象就是记录的一个字段。在一个文档被索引之前，首先需要对文档内容进行分词处理，这部分工作就是由 Analyzer类来完成。Analyzer 类是一个抽象类，它有多个实现，针对不同的语言和应用需要选择适合的 Analyzer。Analyzer 把分词后的内容交给 IndexWriter 来建立索引。在分词时，如果用来进行索引的文档不是纯文本，先得转换成纯文本才能再进行操作；对同一索引，用来分词建立索引的分词器与用来查询的分词器必须是同一个，才能保证得到正确的查询结果。 5、将Field添加到Document里面，再将Document添加到IndexWriter里面。 6、优化indexWriter对象，

您可能关注的文档

最近下载

文档评论（0）

haihang2017 + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

相关文档

版权处理: 版权声明; 侵权处理; 免责声明; 致被侵权者一封信; 网站诺言

使用帮助: 用户协议; 隐私政策; 上传下载; 投稿帮助; 文档保障服务承诺

文赚学院: 文赚入门; 工具技巧; 官方动态; 文档分析

关于: 关于网站; 联系我们; 企业文化; 公司优势; 寻找合作

更多: 机构入驻; 内容整治报告; 原创力公益; 版权公示; 处罚记录; 分享赚钱

: 原创力文档APP下载

: 关注微信公众号

原创力文档从2008开站以来，已有超数十万网友上传了数亿文档，原创力文档定位于“知识资源平台、知识服务平台”；本网站为内容提供方提供“创作营收”解决方案：你只需要简单地上传及管理你的内容，而后续的宣传/推广/内容分发/售出下发/发票开具/知识增值创收都由我们完成，让你无后顾之忧，让你安心创作及上传更多优质地内容及提供知识服务！上传QQ群（最新）：751299218。
有任何问题，请随时联系智能客服，侵权专属客服QQ：2885784724！其它问题点击联系我们！本站内容，未经授权，不得采集、搬运！包括但不限于Al采集后用于训练，侵权必究！

公安局备案号:51011502000106|工信部备案号:蜀ICP备08101938号-1|ICP经营许可证/EDI许可证:川B2-20180569|公司营业执照|出版物经营许可证:成新出发高新字第046号|网信算备:510107145616301250011号
© 2010-2025 max.book118.com 原创力文档. All Rights Reserved 四川文动网络科技有限公司违法与不良信息举报电话：18582317992