【精选】第14章 (续) 图像处理与分析技术举例-ocr.pdf

【精选】第14章 (续) 图像处理与分析技术举例-ocr.pdf

  1. 1、本文档共27页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
【精选】第14章 (续) 图像处理与分析技术举例-ocr

图像处理与分析技术举例 文字识别技术 主要内容 一、OCR简介 二、OCR一般流程 三、 OCR关键步骤介绍 一、 OCR  OCR ,Optical Character Recognition ,光学字符识 别,简称字符识别。  字符识别一直是模式识别的典型问题和重要内容 之一。  西文OCR技术研究始于50年代  几乎所有的早期模式识别研究者都进行过OCR的研究。  汉字OCR技术  印刷体汉字的识别最早可以追溯到60年代  1966年,IBM公司的Casey和Nagy ,曾利用简单的模板 匹配法识别了1,000个印刷体汉字。 一、汉字OCR技术发展历史  70年代以来,日本做了许多研究  日本的常用汉字有2000个左右  1977年,东芝综合研究所,可识别2000个汉字的单体印刷汉字识别 系统;  80年代初,日本武藏野电气研究所,可识别2300个多体汉字的印刷 体汉字识别系统——当时汉字识别的最高水平;  日本的三洋、松下、理光和富士等公司也研制了印刷汉字识别系统。  受限于设备与计算机,这些方法没有得到广泛应用——这些系统, 大都采用基于KL数字变换的匹配方案,使用了大量专用硬件,其设 备有的相当于小型机甚至大型机,价格极其昂贵。 一、汉字OCR技术发展历史  我国自70年代后期开始字符识别方面的研究  80年代以后,台湾和香港发展的也很快  发展历程  70年代末期到80年代末期  算法和方案探索:单体汉字识别  90年代初期  由实验室走向市场,初步实用  90年代后期——混排识别  多语言混排文本:如中英文  多字体混排文本:如:宋,楷体,…)  多字号混排文本:不同大小 一、汉字OCR技术发展历史 当前进展 2000年代后  识别率、鲁棒性的提高  单纯OCR文档分析  多语混排,多字号,多字体  版面分析  文本的结构  表格,图像(如插图),公式  摄像设备(非扫描仪)  名片手机摄像通讯录 二、OCR一般流程 OCR技术一般流程 二、OCR一般流程简介 1、识别图像获取  通过设备获取包含字符的图像  扫描仪(Scanner)  手机、照相机等其它光电扫描设备  将字符以图像点阵形式保存  如传真机,摄象机  不同获取设备的差异  扫描仪:最优 需要16*21个  摄像机:识别难度大 像素来保存一 个汉字 二、OCR一般流程简介  2、图像预处理  滤除干扰噪声  倾斜校正  各种滤波处理  3、版面分析  完成对于文本图像的总体分析  区分出文本段落及排版顺序,以及图像、表格的区域  对于文本区域将进行识别处理  对于表格区域进行专用的表格分析及识别处理  对于图像区域进行压缩或简单存储。 二、OCR一般流程简介 4 、行字切分(字符分割)  将大幅的图像先切割为行  从图像行中分离出单个字符 二、OCR一般流程简介 字符行列分割示意 二、OCR一般流程简介  5、特征提取——模式表示问题 

文档评论(0)

vshoulrengb3 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档