可持续发展OCR系统在CADAL项目中的应用.pptVIP

可持续发展OCR系统在CADAL项目中的应用.ppt

  1. 1、本文档共26页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
可持续发展OCR系统在CADAL项目中的应用

项目背景 项目背景 网站2004年9月开通,提供服务。 古籍资源:全世界开放 民国资源:逐步向211院校开放 现代图书及其他资源:逐步向参建单位开放 截止2007年3月,CADAL网站平均日点击率15万次,下载达120GB,相当于每天 4000 多册书。 * 可持续发展OCR系统 在CADAL项目中的应用 主题 项目背景 问题分析 系统模型 智能检测 人工干预记录 动态任务分配 下一步计划 2000年中美启动“百万册书计划” ,定名为“中美高等教育数字图书馆”,简称CADAL 。 教育部“211”十五期间三大建设工程之一 浙江大学、中科院研究生院共同牵头,构建中国高等教育数字化图书馆。 项目背景 项目启动大会·2004-11-5 国家财政“十五”投 入7000万元; 美国合作方提供硬 件设备等约300万 美元和部分英文图 书资源。 16个参建单位配套 投入1400万元。 项目背景 项目验收会·2006-8-3 MBP 数字化进展(截止至2007年3月底) 建设经费投入7000万元 图书加工总量:1,225,654册 已审核可发布资源:1,092,504册 已发布资源:861,591册 资源容量: 超过 50 TB 资源特点 学术性强,服务于教育科研 技术标准高,充分考虑资源长期保存和增值应用 数据量大,开放程度高,是各类科学研究的资源库和测试床。 MBP 主题 项目背景 问题分析 系统模型 智能检测 人工干预记录 动态任务分配 下一步计划 MBP MBP OCR 难点 问题分析 数字化资料的核心是OCR识别。但是,没有一种OCR软件可以满足不同类型原始资料识别和数字化的需求。 OCR处理软件需要占用极大的计算资源。采用传统的方式,软件应用固定安装在特定平台上,采用手工操作,一方面软硬件资源利用率很低,另一方面也带来了管理的复杂性。 项目考虑到二次开发的潜力,扫描精度统一设定为600DPI,当前通用的OCR核心都是基于300DPI的黑白图像开发,如何利用600DPI图像的冗余信息提高OCR准确率? 由于OCR软件不可能达到100%的正确率,因此需要和人工校对相配合,也需要一种方式来提供统一的操作流程支持和管理机制。同时要兼顾人工投入的可继承性。 MBP 主要思路 问题分析 简单地重复人工投入是极其不经济的,创建一种可持续发展 (Sustainable Development) 的动态OCR系统,随着新技术的进展不断提高整个百万册电子书的文本准确率,是值得研究和开发的。 对于可持续发展,我们关注的重点在于系统的开放性和可继承性。 MBP 开放性 问题分析 所谓开放性,就是可以不拘于一家的OCR核心,灵活利用各家优势,针对特定类型的图书采用不同的核心; 所谓可继承,就是要保证系统的重用能力,随着核心技术的突破,系统可以不断地对百万册图书进行OCR精度提升,通过重复的流程,在甚少人工干预下获得高质量的百万册文本语料。 可继承性 MBP 问题分析 OCR流程分析 书本级 版式级 行切分 字切分 识别 后处理 MBP 问题分析 样本错误分析 MBP 问题分析 优化代价 MBP 问题分析 OCR系统重点 书本级 版式级 行切分 字切分 识别 后处理 建立一个可持续改进的OCR构架,能够方便继承已经取得的结果。 系统接口开放,使得目前市场上的OCR产品能够嵌入进来,并为将来在实现OCR方面的技术改进和突破之后再进一步改进文本质量提供可能和方便。 系统除正常的操作人员外,不宜加入大量的人工干预环节。 主题 项目背景 问题分析 系统模型 智能检测 人工干预记录 动态分配 下一步计划 MBP MBP 智能检测 系统分析 智能检测模块可以对初始获得的数据进行分析,判别原始识别率,当检测模块发现错误率偏高的连续文本时,会提示进行人工干预。 每个页面文件被标示为一个独立的作业,机器将持续不断地进行OCR流程,而将检测有疑义的页面记录推送到人工干预中心的处理池中(Task Pool),等待人工干预后进行处理。 MBP 人工干预记录 系统分析 有限人工干预以低成本最大限度地提高了OCR的总体质量,但为了保证开放系统的有效运行,还必须设定一个机制使人工干预的成果被不断应用而使效益最大化。 所有的人工干预痕迹被自动保存于干预记录中。 重复流程通过检索干预记录获取以前的参数,从而进行优化的作业流程。 MBP 系统分析 动态任务分发 MBP 系统分析 系统监控界面 MBP 系统分析 人工干預界面 MBP 统一OCR处理中心 主题 项目背景 问题分析 系统模型 智能检测 人工干预记录 动态任务分配 下

文档评论(0)

ligennv1314 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档