- 1、本文档共27页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
【精选】第14章 (续) 图像处理与分析技术举例-ocr
图像处理与分析技术举例
文字识别技术
主要内容
一、OCR简介
二、OCR一般流程
三、 OCR关键步骤介绍
一、 OCR
OCR ,Optical Character Recognition ,光学字符识
别,简称字符识别。
字符识别一直是模式识别的典型问题和重要内容
之一。
西文OCR技术研究始于50年代
几乎所有的早期模式识别研究者都进行过OCR的研究。
汉字OCR技术
印刷体汉字的识别最早可以追溯到60年代
1966年,IBM公司的Casey和Nagy ,曾利用简单的模板
匹配法识别了1,000个印刷体汉字。
一、汉字OCR技术发展历史
70年代以来,日本做了许多研究
日本的常用汉字有2000个左右
1977年,东芝综合研究所,可识别2000个汉字的单体印刷汉字识别
系统;
80年代初,日本武藏野电气研究所,可识别2300个多体汉字的印刷
体汉字识别系统——当时汉字识别的最高水平;
日本的三洋、松下、理光和富士等公司也研制了印刷汉字识别系统。
受限于设备与计算机,这些方法没有得到广泛应用——这些系统,
大都采用基于KL数字变换的匹配方案,使用了大量专用硬件,其设
备有的相当于小型机甚至大型机,价格极其昂贵。
一、汉字OCR技术发展历史
我国自70年代后期开始字符识别方面的研究
80年代以后,台湾和香港发展的也很快
发展历程
70年代末期到80年代末期
算法和方案探索:单体汉字识别
90年代初期
由实验室走向市场,初步实用
90年代后期——混排识别
多语言混排文本:如中英文
多字体混排文本:如:宋,楷体,…)
多字号混排文本:不同大小
一、汉字OCR技术发展历史
当前进展
2000年代后
识别率、鲁棒性的提高
单纯OCR文档分析
多语混排,多字号,多字体
版面分析
文本的结构
表格,图像(如插图),公式
摄像设备(非扫描仪)
名片手机摄像通讯录
二、OCR一般流程
OCR技术一般流程
二、OCR一般流程简介
1、识别图像获取
通过设备获取包含字符的图像
扫描仪(Scanner)
手机、照相机等其它光电扫描设备
将字符以图像点阵形式保存
如传真机,摄象机
不同获取设备的差异
扫描仪:最优
需要16*21个
摄像机:识别难度大 像素来保存一
个汉字
二、OCR一般流程简介
2、图像预处理
滤除干扰噪声
倾斜校正
各种滤波处理
3、版面分析
完成对于文本图像的总体分析
区分出文本段落及排版顺序,以及图像、表格的区域
对于文本区域将进行识别处理
对于表格区域进行专用的表格分析及识别处理
对于图像区域进行压缩或简单存储。
二、OCR一般流程简介
4 、行字切分(字符分割)
将大幅的图像先切割为行
从图像行中分离出单个字符
二、OCR一般流程简介
字符行列分割示意
二、OCR一般流程简介
5、特征提取——模式表示问题
您可能关注的文档
最近下载
- 最地震演练脚本.docx VIP
- 《国有企业管理人员处分条例》解读.docx VIP
- 《无机及分析化学》课件 第7章 物质结构基础.ppt VIP
- Kyocera京瓷ECOSYS M4125idn_M4132idn操作手册.pdf
- 含糖透析液对血透病人的影响.doc VIP
- RADWIN5000安装调试指南.doc VIP
- 无机及分析化学:第四章 物质结构简介.ppt VIP
- 体育康养与自然疗法的结合研究论文.docx VIP
- 2025年广东省基层住院医师线上岗位培训《医学人文及医患沟通》-中医学专业培训课程公共课答案.docx VIP
- 含糖透析液对糖尿病肾病血液透析患者血压和心率变异性影响.doc VIP
文档评论(0)