- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
OCR汉字识别系统获取纸质图片的资料文字信息的技巧
OCR汉字识别系统获取纸质图片的资料文字信息的技巧
摘要:OCR汉字识别系统通过扫描仪扫描,能快速将纸质文本信息转换成Word可编辑文本,极大地提高了工作效率,因此?h字OCR识别技术有着广泛的发展前途及实际应用价值,文章提到的具体操作方法可以有效地应用于实际工作当中,供同行参考。
关键词:OCR汉字识别系统 原理 方法 技巧
中图分类号:TP391 文献标识码:A 文章编号:1009-5349(2017)16-0191-03
一、 什么是OCR?
OCR是(Optical Character Recognition)的缩写,即光学字符识别,也可简称文字识别。它的工作原理就是通过电子设备检查纸质资料上打印的字符,采用光电转换装置将汉字或字符转换成电信号,并由计算机进行检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程。[1]
衡量OCR系统性能优劣主要指标有:拒识率、误识率、识别速度、用户界面的友好性,产品的稳定性,易用性及可行性等。[2]早期的OCR软件在识别率等方面不是很理想。文字识别的工作只能由简单的识别软件逐字进行,无法分辨不同的字体,对于手写体或是印刷效果不清晰的印刷品,在识别上有一定的难度。有人做过实验,对于印刷品模糊或是手写体过于潦草的汉字,识别后的修改时间与正常打字的速度相差不多,有时甚至还赶不上人工打字的速度。但是随着这项技术的日趋成熟,识别软件已经进入了人工智能阶段,它不仅能识别黑白印刷体汉字,还能识别灰度和彩色印刷体汉字,识别正确率能达到99% ,对于手写汉字识别率已达到70% 以上,对于大批量的印刷文字向电子文档的输入,OCR汉字识别效率与识别率都能让用户十分满意。[3-12]
二、 原理与功能模块[4]
OCR的功能是将各种录入汉字、印刷体或手写体中每个汉字的图形或图像通过计算机辨认出来,并标出汉字类别代码,从而获取文字及版面信息的过程。[2]因此,汉字识别归根结底是一个图像识别问题。由于汉字信息量很大,具有不同的字形、字体,而且结构复杂,因此汉字识别的过程极其复杂。汉字识别系统可由汉字图形输入装置、予处理器、识别器、后处理器几部分组成。如图1所示。
汉字图形输入装置主要功能是通过光、电输入设备,将原稿转换成二维点阵图形。所谓的原稿指的就是印刷的纸质资料。
予处理器是指对印刷的纸质资料文稿页,进行成分分析、字符的分割、去干扰等。
后处理器是对识别后的词组、词条和上下文关系进行后期纠错、输出。
三、OCR适合对象[4]
(1)印刷行业、文印店经常会遇到客户只给你一本厚厚的宣传册,要明天之前必须把那本宣传册上的文字原原本本打出来。OCR能极大地减轻录入工作强度、提高录入速度,是非常快捷、省力的好帮手。
(2)办公室工作人员经常会遇到要马上把纸质文本打印成Word文档的工作,对于打字慢或是懒得打字的人,为了完成工作任务,OCR是非常好的选择。
(3)其他对象:广泛应用于网上资源数据库、数字化图书馆、档案部门,尤其是对于原始纸质文件、档案、书稿等的引用、检索数字化工作,OCR能轻松提高效率。
四、OCR系统识别汉字的方法
文字识别模块是OCR软件的核心部分,它主要对输入的汉字进行“阅读”,但不能一目多行,必须逐行切割,一个个字的辨认,即单字识别,再进行归一化。文字识别模块通过对不同样本汉字的特征进行提取,完成识别,自动查找可疑字,具有前后联想等功能。[4]
(一)汉字识别所需硬件、软件
一般来说进行汉字识别只需要一台计算机、扫描仪即可。OCR汉字识别软件在购买扫描仪时会自带,安装在本机上运行即可。不同的扫描仪所附带的OCR汉字识别软件是不一样的。目前,市面上的OCR软件有丹青、汉王、蒙恬OCR、清华紫光、尚书等。OCR软件的种类虽然很多,但其使用方法大同小异。现以清华紫光OCR2003专业版为例,介绍其具体操作过程和使用技巧。[5]清华紫光OCR2003专业版具有识别率高、支持表格识别等特点,流程分为四步:获取识别图像;图像版面处理;识别及修改;结果输出。[6]
(二)设置扫描模式及扫描
在本机上安装好清华紫光OCR2003千禧版之后双击桌面图标,打开扫描仪对扫描参数进行设置。如果选择“直接终扫”,系统只进行一次扫描。“直接终扫”能节约时间,但是前提是要把需识别的纸质文本在扫描仪中放好,扫描时尽量不要出现歪斜现象。
扫描时采用的分辨率是识别过程的关键。一般杂志或报纸需300dpi的分辨率就能足够供OCR产生良好的识别效果,以激光打印机输出设备的纸质文件在300dpi的扫描品质下,识别率可以达到99%。[7]扫描完成后,利用紫光OCR2003千禧版对该纸质
您可能关注的文档
- M7130平面磨床排故系统的设计.doc
- M701F型燃气蒸汽联合循环机组两班制运行定期工作优化的研究.doc
- MACD指标基本原理及其的运用.doc
- MAC高分子自粘橡胶复合防水卷材施工监理质量控制的要点.doc
- MAERZ石灰窑的的特点分析.doc
- Make a difference 词义的探讨.doc
- Make our life happy教学的设计.doc
- MakingtheNews教学的设计.doc
- MALL的环境下大学生英语词汇习得效用性的研究.doc
- MANET路由安全的研究.doc
- 实验室危废随意倾倒查处规范.ppt
- 实验室危废废液处理设施规范.ppt
- 实验室危废处置应急管理规范.ppt
- 初中地理中考总复习精品教学课件课堂讲本 基础梳理篇 主题10 中国的地理差异 第20课时 中国的地理差异.ppt
- 初中地理中考总复习精品教学课件课堂讲本 基础梳理篇 主题10 中国的地理差异 第21课时 北方地区.ppt
- 危险废物处置人员防护培训办法.ppt
- 危险废物处置隐患排查技术指南.ppt
- 2026部编版小学数学二年级下册期末综合学业能力测试试卷(3套含答案解析).docx
- 危险废物处置违法案例分析汇编.ppt
- 2026部编版小学数学一年级下册期末综合学业能力测试试卷3套精选(含答案解析).docx
原创力文档


文档评论(0)