【精选】第14章 (续) 图像处理与分析技术举例-ocr.pdf

下载文档 降价啦

2
0
约6.47千字
约 27页
2017-12-14 发布于贵州
举报
版权申诉
保障服务

【精选】第14章 (续) 图像处理与分析技术举例-ocr.pdf

1、本文档共27页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

【精选】第14章 (续) 图像处理与分析技术举例-ocr

图像处理与分析技术举例文字识别技术主要内容一、OCR简介二、OCR一般流程三、 OCR关键步骤介绍一、 OCR  OCR ，Optical Character Recognition ，光学字符识别，简称字符识别。  字符识别一直是模式识别的典型问题和重要内容之一。  西文OCR技术研究始于50年代  几乎所有的早期模式识别研究者都进行过OCR的研究。  汉字OCR技术  印刷体汉字的识别最早可以追溯到60年代  1966年，IBM公司的Casey和Nagy ，曾利用简单的模板匹配法识别了1,000个印刷体汉字。一、汉字OCR技术发展历史  70年代以来，日本做了许多研究  日本的常用汉字有2000个左右  1977年，东芝综合研究所，可识别2000个汉字的单体印刷汉字识别系统；  80年代初，日本武藏野电气研究所，可识别2300个多体汉字的印刷体汉字识别系统——当时汉字识别的最高水平；  日本的三洋、松下、理光和富士等公司也研制了印刷汉字识别系统。  受限于设备与计算机，这些方法没有得到广泛应用——这些系统，大都采用基于KL数字变换的匹配方案，使用了大量专用硬件，其设备有的相当于小型机甚至大型机，价格极其昂贵。一、汉字OCR技术发展历史  我国自70年代后期开始字符识别方面的研究  80年代以后，台湾和香港发展的也很快  发展历程  70年代末期到80年代末期  算法和方案探索：单体汉字识别  90年代初期  由实验室走向市场，初步实用  90年代后期——混排识别  多语言混排文本：如中英文  多字体混排文本：如：宋，楷体，…）  多字号混排文本：不同大小一、汉字OCR技术发展历史当前进展 2000年代后  识别率、鲁棒性的提高  单纯OCR文档分析  多语混排，多字号，多字体  版面分析  文本的结构  表格，图像（如插图），公式  摄像设备（非扫描仪）  名片手机摄像通讯录二、OCR一般流程 OCR技术一般流程二、OCR一般流程简介 1、识别图像获取  通过设备获取包含字符的图像  扫描仪(Scanner)  手机、照相机等其它光电扫描设备  将字符以图像点阵形式保存  如传真机，摄象机  不同获取设备的差异  扫描仪：最优需要16*21个  摄像机：识别难度大像素来保存一个汉字二、OCR一般流程简介  2、图像预处理  滤除干扰噪声  倾斜校正  各种滤波处理  3、版面分析  完成对于文本图像的总体分析  区分出文本段落及排版顺序，以及图像、表格的区域  对于文本区域将进行识别处理  对于表格区域进行专用的表格分析及识别处理  对于图像区域进行压缩或简单存储。二、OCR一般流程简介 4 、行字切分（字符分割）  将大幅的图像先切割为行  从图像行中分离出单个字符二、OCR一般流程简介字符行列分割示意二、OCR一般流程简介  5、特征提取——模式表示问题 