光学字符识别技术探究.ppt

光学字符识别 OCR介绍 OCR(optical character recognition)文字识别[1] 是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,然后用字符识别方法将形状翻译成计算机文字的过程;即,对文本资料进行扫描,然后对图像文件进行分析处理,获取文字及版面信息的过程。 一个OCR识别系统,其目的很简单,只是要把影像作一个转换,使影像内的图形继续保存、有表格则表格内资料及影像内的文字,一律变成计算机文字,使能达到影像资料的储存量减少、识别出的文字可再使用及分析。可以极大减轻数据录入工作的强度,提高数据录入的速度。 一.文字识别系统的构成。 印刷体识别的原始图像是通过扫描仪、CCD器件或传真机等获得的二维灰度或二值图像,其识别过程如下图: 进入OCR系统 获取图像识别 文稿校对 结束 图像预处理 版式分析 文本的切割 特征提取 单字识别 后处理 识别 识别过程 图像预处理 版式分析 文本的切割 去噪声 倾斜矫正 二值化等 段落 表格 图表 文本切割 字符切割 特征提取 统计特征 结构特征 单子识别 特征库 字库 后处理 词频 结果纠正 语义 二.文字识别技术 OCR识别技术可分为印刷体识别技术和手写体识别技术,而后者由分为联机手写识别和脱机手写识别技术。 联机手写识别 脱机手写识别 识别快 出错多 空间多 更新

文档评论(0)

1亿VIP精品文档

相关文档