两款常用中文OCR软件的性能比较分析.pdfVIP

两款常用中文OCR软件的性能比较分析.pdf

  1. 1、本文档共3页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
两款常用中文OCR软件的性能比较分析.pdf

2011年3月 情报探索 第 3期 (总 161期) 两款常用中文OCR软件的性能比较分析 郭 军 (郑州大学信息管理系 河南 450001) 摘 要:通过实验 ,从识别率、支持识别的图像文件格式、支持识别的字符属性、支持输 出的文件格式、用户界面友好性、图像 预处理功能和用户自学习功能等方面 ,对2款常用 中文OCR软件的性能进行对 比分析 ,针对性地提 出了7条提高OCR软件性 能的具体措施。 关键词:ocR软件 性能比较 信息资源数字化 中图分类号:IP317.2 文献标识码:A doi:10.3969/j.issn.1005—8095.2011.03.033 OCR(光学字符识别)这一概念最早于 1929年 25种常用 的中文标点符号 ,分别用宋体、楷体和黑 由德 国科学家 Tausheck提出[1]。随后 ,美 国科学家 体 3种字体打印)、纯英文打印稿样张 (26个大小写 Handel描述了利用光学技术对文字进行识别的概念 英文字母、0~9阿拉伯数字和 35种常用的英文标点 模型,但这个模型直到计算机的诞生才进入实际应 符号,分别用宋体、楷体、黑体、Arial、Impact、Times 用。 NewRoman6种字体打印)、中英文混排打印稿样 信息资源数字化工作中,为满足用户对数字化 张、纯中文杂志样张、纯英文杂志样张、中英文混排 产品的深层次需求 ,部分数字化项 目要求将经数字 杂志样张、纯中文报纸样张、纯英文报纸样张和中英 扫描或数字拍照所生成的数字图像转换为易于编 文混排报纸样张[21。这 9种扫描样张均由同一 台型 辑、深加工的文档信息 。为达到这一 目的。信息资源 号为iR5o2O的佳能扫描仪采用黑白扫描模式获得, 数字化项 目人员大多选择 OCR识别这柄利器 。OCR 考虑到部分扫描样张中的一些字符(例如标点符号) 精确识别是保证数字化产品质量进而为整项工作提 很小,本实验中的扫描分辨率统一设置为 600dpi,扫 供用户保障的一个重要环节。因此,选择并正确使用 描样张文件的格式统一设置为 ⅡF格式[3]。在选择样 合适的OCR软件应 当引起信息资源数字化项 目工 张的原始文献资料时。笔者尽量避开含有图表的部 作人员的充分重视。 分 ,因此本实验中实际参与识别的图像类型为文本 1 实验 目的与实验材料 型数字图像 。 1.1 实验 目的 2 实验流程与实验方法 本实验对 2款常用中文 OCR软件的性能进行 2.1 实验流程 了多角度的对 比分析,目的在于希望能够为信息资 本实验的流程如图 1所示。 源数字化项 目人员 以及其他相 文本型数字图像 .-{图像预处理 .{ OCT.识别 ,-4对比分析 卜..{生成分析报告 关用户在选择和使用 OCR软件 时提供参考 ,同时为 OCR软件 图 1 实验矛I程示意 开发方提供建议。 2.2 实验方法 1.2 实验材料 本实验把识别率作为对 2款 OCR软件 的性能 在我国大陆OCR软件市场上 .曾经呈现出汉王 进行 比较分析的首要 因素。一方面 ,试验中将2款 科技、曙光公司、清华文通三足鼎立的态势,自从 OCR软件分别对 9种不同样张的单个识别

文档评论(0)

kfigrmnm + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档