利用双层PDF技术实现地质资料信息化管理.docxVIP

利用双层PDF技术实现地质资料信息化管理.docx

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
利用双层PDF技术实现地质资料信息化管理

利用双层PDF技术实现地质资料信息化管理   摘 要:本文介绍了双层PDF技术的实现方法及操作技巧,旨在通过建立索引数据库实现对地质资料的信息化管理。在已扫描地质资料数据基础上,通过OCR识别生成文本与图像相结合的可检索PDF文件,100%保留原档案资料版面效果,实现文档的检索、复制等功能,提高地质文档电子化发展。   关键词:双层PDF OCR 地质资料 信息化   中图分类号:G27 文献标识码:A 文章编号:1672--0014-02   目前,河北省地质档案馆的全部资料已经完成了图文扫描,数字化的数据为地质资料信息化发展提供了重要的数据资源。数字化的地质资料用于阅读虽然极大地提高了效率,但是目前所有的数字图文资料还不能够进行全文检索,数字化资料深层化的利用和解析还没有起到一定的作用。   因此,在现有数字化数据的基础上,开展OCR识别,使之转化为双层PDF文件,并形成全文数据库,实现地质资料和数据的全面检索,促进地质资料由静态查阅向数字化信息管理发展。   1 双层PDF转换方法及流程   目前国内双层PDF转换技术已相对成熟,在现有技术条件下,大体可分为三种:软件转换、流程加工、识别重构。地质资料数字化双层PDF?D换主要运用第一种方法进行软件转换,即经过软件自动OCR处理后直接形成双层PDF文件。    图像处理   在图文扫描数字化形成成果基础上,对已有成果资料进行加工处理,在进行文件格式转换之前对扫描图像进行“消蓝去污”处理,消除影响识别图像中的噪音、斑麻点和下划线等因素,同时对栅格图片进行适当的纠斜处理,调整图片整体的亮度和对比度。    版面分析   自动进行版面理解并定位,文字识别前要进行识别范围选择,包括手动和自动选择,其中正文、附表、附件、审批等文字类的资料采用自动、手动选择相结合方式,通过OCR识别软件进行自动判别识别区域,对比各级目录按照内容格式要手动选择识别区域,并标出竖排区、表格区或图像区。对于图件中图名、比例尺、责任签需要识别区域则采用手动选择方式。    文字识别和校正   文字识别方式采用OCR自动识别和人工识别两种方式,对于正文、附表、附件、审批等文字类资料采用专业识别软件进行识别,通过人工校正使各级目录中文字识别率达到100%,附图中的图名、责任签、比例尺和老旧资料中的重要信息,采用人工识别方式,使用专业软件对照文字内容和位置,采集相关信息,将文字内容置于底层,最终形成双层PDF文档。    电子书制作   正文、附件、附表等资料中的封面、目录插回原位置,将分页的PDF电子文件合并成册,同时删除图像中的空白页,最终形成多页的PDF电子书文档,并挂接章、节、条、款等目录信息制作成可链接书签,实现准确定位与检索。    责任表制作   责任表的作用就是记录PDF文件的制作人以及与该文档相关的制作单位、制作时间等信息。   责任表作为单独一页,建立PDF文件放于该档资料的文件夹内,命名为“责任表_PDF”。    文件组织   文件组织包括文件命名和存放,按照电子文档汇交格式要求,对每个PDF文件进行命名,以档案地质资料为单元存储,将该档中所有PDF电子文件存放于以“档号_PDF”命名的文件夹中。   2 双层PDF转换问题   虽然双层PDF文件有很大的用途和作用,但是在实际的操作过程中,仍然存在着一些困难和问题。   传统纸质的地质资料纸张样式、印刷方式是多种多样的,并且还存在着大量手写体和老旧资料中的数字公式、特殊符号等信息。受形成年代等因素影响,资料老旧、纸张质量差,执笔人手写清晰度等因素严重影响了OCR识别结果,识别的率最低仅为30%,特殊符号、地层以及公式的识别率几乎为0。   目前OCR识别技术不能够实现对文档的整体扫描和完全识别,因此必须要根据实际需要的数据进行人工介入和校对,才能够获得相对完整的资料,满足对全文检索的要求。   地质资料数据量大并且需要扫描的数据文档较多,电子文档转换的效率还受到计算机实际的反应速度和程序的流畅性等影响,因此在实际的转换过程还需要配置能够实现快速反应的高级计算机硬件设备。   3 提高OCR识别率的方法   为了提高工作效率,减轻横向校对即人工校对的工作量,就要从根本上提高图文识别率。经过试验,以下几种方法可以提高栅格文件的OCR识别率。    图像色彩设定   在实际的工作中灰度和彩色模式可实现纸质资料数据的高度还原,也是提高数字化扫描工作效率的第一选择,但是这两种模式下的扫描结果会受到背景的噪声影响,因此如果只是针对文字或者黑白插图的资料进行扫描,那么可以将程序直接设定为黑白,最大限度地提高识别率。最终的图像彩色设定需要根据所需资料的工作性质和规范进行相应的设置。    分辨率设置   分辨率的高低与扫描速度成反比,与成像质量和识别率

文档评论(0)

a888118a + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档