历史纸质气象档案数字化技术策略初步分析.pdfVIP

历史纸质气象档案数字化技术策略初步分析.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
技术分析 历史纸质气象档案数字化技术策略初步分析 兰平臧海佳 (国家气象信息中心气象资料室) 摘要 利用安全扫描和OCR识别技术实现气象档案数字化,是对纸质气象历史档案拯救和开发利用的有效途径。 该文在对数字化技术进行调研和试验的基础上,提出了历史纸质气象档案数字化的建设思路,针对气象档案 记录内容的特点,对OCR(OpticalCharacter Recognition)手写体数字识别技术应用进行了分析,提出了气 象档案OCR识别的解决策略,为业界的纸质气象档案数字化建设提供一种技术思路和有效的技术参考。 关键词:纸质气象档案;数字化;初步分析 1 引言 “数字化”技术是指把原始的文字、声音、图像等信息用间断的电磁脉冲(常用O和1 来代表)来获取、存储、处理和传递的技术。“数字化”是一个动态的过程,是对记录内容信 息处理和管理的过程。气象档案数字化建设是根据气象档案的特点和利用需求,通过扫描和 Character 光学字符识别技术(Optical Recognition,简称OCR),实现能够通过计算机管理和 检索的信息转换过程,气象档案数字化建设,不仅仅是通过扫描形成简单的文本文档,而是 利用OCR技术实现气象资料的数据信息提取,气象档案数字化的对象主要是以纸张介质存储 的历史气象档案。 国外从20世纪50年代就开始了OCR技术的研究,u1目前印刷体西文和数字的识别精度已 经达到了99%,手写体数字识别技术也已到了实际应用阶段。在日本,目前大量的存单、储单、 保单以及户籍登记都是通过OCR技术来实现数字化管理的;在美国,大规模的人口普查、针 对个人的信贷业务、个人所得税申报等工作也都离不开OCR技术;而在法国从2000年开始, 已有近百个省政府利用OCR技术处理一些复杂和数量庞大的银行表单和汽车转手 申报表,自2003年起,政府要求全国身份证和护照申请表中手写签字和数字栏必须利用OCR 软件进行处理,以达到高效、准确和统一。同国外相比,我国在OCR技术研究方面起步较晚, 但由于应用领域广阔,国内对相关技术开始给予了充分的重视,通过借鉴国外的先进经验, 我国在印刷体数字、西文、汉字和手写体数字识别技术上已经达到很高水平,OCR技术在档案、 图书、银行和政府等很多部门得到了广泛的应用。 中国气象局气象档案馆存档着大量纸质载体的历史气象资料,其中大部分来自民国政府 所属的中央气象局、气象研究所等机构。这些历史气象资料年代较为久远,是研究我国近代 气候及环境的不可替代的宝贵财富,也是区域气候变化和全球变化研究的基础资料。这些历 史气象资料主要以纸质载体为主,使用方式仍然是查阅和抄录,其信息无法得到更为广泛和 深入的应用㈨。 纸质历史气象档案的数字化建设是气象档案馆当前所面临的突出问题,这些档案存在着 种类多、年代久远、原件物理质量差、数量庞大(需要扫描处理的资料量达200万页,需要 信息化的资料量近20GB)、格式和内容复杂、手写体数据无逻辑关系等特点,数字化建设过 宰 科技部气象科学数据共享试点项目“基本气象资料数据资源建设”资助 374 国家气象信息中心2005年科技论文集 程中,既要保证档案原件的安全,又要实现载体转换和数据信息的提取,技术难度很大。针 对气象档案资料的上述特点,我们对有代表性的非信息化历史气象资料进行了数字化方法研 究,从档案保护和信息提取的角度,利用目前国内外较成熟的技术对纸张和缩微胶片载体资 料进行了扫描和数字识别试验,在此基础上,对气象档案数字化的可行性作了客观的评估, 进而对气象档案数字化的总体设计做一个策略分析。 2气象档案数字化建设中面临的技术问题 气象档案数字化建设是一项运用多种技术进行资料处理,兼顾档案资料的保护、管理、 数字信息提取和利用的复杂过程,整个环节面临三个必须首先解决的技术问题。 一是档案的安全扫描和扫描技术参数的选择问题。纸质气象档案原件的质量本身决定了 必须采用安全的扫描方式,同时要保证扫描结果具有较高的分辨率。解决这个问题在于扫描 设备采用能够支持A2_A4等多种幅面的非接触式或平板式安全扫描仪,在扫描参数选择上根 据扫描清晰度和质量因素进行综合选择,对于需

文档评论(0)

bhl0572 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档