- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
面向中国市场的文字识别技术研发
孙俊,黄开竹,于浩,岩见田均
sunjon.kzhuang。3兀J.iwamida@cn.fujitsu.c∞
富士通研究开发中心有限公司
北京市朝阳区霄云路26号鹏涧大厦10层100016
擒要:富上通研究开发中心自1998年成立以来,一直致力于面向中文的信息处理技术的研发。随着中国业
务的不断普及,我们在文字识别领域的技术研发也取得了一定的进展。在印刷体字符识别方面.我们提{I{
r一种基于双子空问分解的灰度字符图像特征提取和识别算法.该算法对于由数码相机拍摄等原刨所引起
的字符图像退化具有很好的识别效果.在手写体字符识别方面。我们提出了一种基于中目地址层次结构模
型的于写中国地址识别系统。该系统利用了整体识别.动态规划,和减枝的方法,能有效地识别符种地址。
实验表明-该算法对工整手写地址整条识别率达到94,9%.对潦草地址的识别率也达到了74.6%的较好效果。
1引言
富士通研究开发中心自1998年成立以来.一直致力于面向中文的信息处理技术的研发。
随着中国业务的不断普及,我们在文字识别领域的技术研发也取得了一定的进展。近年来,
ocR研究方向出现了几个热点,首先是文档图像获取方式的变化,在传统的基于扫描仪的文
档图像获取方式之外,随着数码相机的日益普及.越来越多的文档图像以数码照片的形式得
以保存,这大大方便了纸质文档电子化的过程。其次,在手写脱机字符识别方面,由于技术
上的难点一直未能突破.基于特定知识的行业应用成为应用的主要方向。我们针对这两个热
点方向。对退化字符识别和手写中文地址识别进行了专门的研究。
在印刷体字符识别方面,我们的研究方向是基于数码图像的退化字符识别。和传统的扫
描文档图像相比,数码相机得到的文档图像无论是从分辨率还是图像质量来看都有一定的差
距.字符图像的退化现象比较严重。这对传统的基于二值特征的字符特征提取和识别技术是
一个挑战。为了解决这个问题,我们提出了一种从灰度字符图像中直接进行特征提取和识别
的文字识别技术“1“。该算法首先对灰度字符图像进行非线性归一化,然后利用双子空问分
解对图像进行从粗到精的特征提取和分类,实验表明,该算法明显优于传统的基于二值字符
图像的字符识别算法。
在手写体识别方面.针对中国市场的开发,我们提出了基于中国地址层次结构模型的手
写中国地址识别系统。中文手写地址识别存在的难点表现为(1)脱机手写中文字符识别目
前尚未成熟(2)手写地址很难切分。针对这些问题,我们提出了整体识别的方法,将大规
模的中文手写字符识别转换为小规模的地名识别。同时.利用地址分层结构解决了手写地址
的切分问题。
文本的其余部分安排如F:第二章介绍基于双子空间的灰度字符图像识别算法,第三章
介绍基于中国地址层次结构模型的手写中国地址识别系统,第四章是总结。
—·466——
2 基于双子空间分解的灰度字符图像识别算法
对于由于低分辨率或者数码相机拍摄造成的图像模糊,传统的二值化过程必然导致笔画
信息的丢失。因此,直接从灰度字符图像中提取特征对退化字符图像更加具有优势。本文提
出了一种利用双子空间分解的灰度字符图像特征提取和识别方法。
2.I双子空间特征提取和识别
双子空间分解包含2个步骤”1:第一步是针对所有字符类别构筑一个统一子空间,第二
步是针对每个字符类别构筑一个个体子空间。
统一子空间的构筑过程如下:假设灰度字符图像的图像大小是肭姒该图像可以被表示
为一个一个(肭眦1)的一维向量。针对统一子空间的自相关矩阵可以如F计算:
l P
COV,。=击∑b.一州勋.一m)7
1#I (1)
其中,P代表字符类别的数目,口是所有字符样本的均值向量,册是第j类字符的均值
向量。对COVsb进行特征值和特征向量分解,对应前17个最大特征值的n个特征向量记为;
U=fuLu2,…。unj,它日1构成了缆一子空喊。
个体子空间的构筑过程如下:首先,对每个字符类别用统一子空间提取特征(PCA特征
提取):
您可能关注的文档
最近下载
- 爱玛客,设施管理龙头的崛起之路.pptx VIP
- 设备全生命周期管理ppt课件.pptx VIP
- 一种变截面核反应堆厂房舱室及其骨架机构.pdf VIP
- 《智能网联汽车运行与维护》中职技工全套教学课件.pptx
- 猕猴桃黄化病防治与原理ppt课件.ppt VIP
- 辐射环境培训课件.pptx VIP
- 标准图集-22G101-3 混凝土结构施工图平面整体表示方法制图规则和构造详图-独立基础、条形基础、筏形基础、桩基础.pdf VIP
- 设计工程变更风险评价表.pdf VIP
- 2020电梯制造与安装安全规范第2部分 电梯部件的设计原则计算和检验.docx VIP
- 一种开洞核反应堆厂房舱室及其骨架机构.pdf VIP
文档评论(0)