- 1、本文档共7页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于特征行必要-充分性匹配的字符识别方法
1000-9825/2002/13(01)0085-07 ©2002 Journal of Software 软 件 学 报 Vol.13, No.1
基于特征行必要-充分性匹配的字符识别方法
李 佐, 王姝华, 蔡士杰
(南京大学 计算机软件新技术国家重点实验室,江苏 南京 210093)
E-mail: lizuo@263.net; sjcai@
http://
摘要: 字符识别系统的性能在很大程度上依赖于所选取的字符特征.提出了一种基于特征行必要-充分性匹配
的OCR(optical character recognition)方法.该方法使用字符模板的特征行集,通过对待识字符位图进行必要性和
充分性双向匹配来识别字符.并采用基线对齐归一化方法在特征匹配时准确定位,使识别率和识别速度都较为
理想. 同时,对字符位图特征行的交互选择、测试和调整等方法做了详细介绍.另外,还提出了字符骨架与位图重
叠显示的方案,有效地提高了对识别结果校对的速度.最后,通过测试和比较,对识别效率进行了分析.
关 键 词: 计算机图形学;字符识别;特征抽取;特征行;必要-充分性匹配
中图法分类号: TP391 文献标识码: A
光学字符识别(optical character recognition,简称 OCR)技术的应用十分广泛,其发展有较长的历史,一些较
为成熟的通用软件已经推出.当前,OCR 研究的热点涉及退化比较严重的文字、多字体文字和手写体的识别以
及对包括印刷体识别在内的进一步提高识别效率的新方法的研究[1] . 由于 OCR 系统处理的字符数量一般都很
大,尤其是在扫描仪与应用系统并行工作,大批量、流水线地处理文档时,寻找适合具体应用领域的识别方法以
进一步提高识别率和速度是必要的.
目前,普遍采用 3 类方法来提高 OCR 系统的识别性能:一类方法是寻找更好的分类识别算法[2,3];另一类方
法是将几种分类器结合起来,相互补充,根据不同方面的特征分类[4] ;第 3 类方法是抽取具有更强描述能力的特
[5~8]
征,结合其他辅助特征来描述扫描位图 .
从根本上说,OCR 系统的性能在很大程度上依赖于所选取的特征的高效性,上述的第 1 类和第2 类方法是
建立在第 3 类方法的基础上的.虽然多年以前人们就已经认识到这一点,并做了大量的工作,但近年来仍有不少
文章在讨论特征抽取的问题.可见,针对各种应用领域,通过采用进一步优化的具有强描述能力的特征来提高识
别性能的方法发展余地还很大.另外, 只要存在错识或拒识,就需要为用户提供能够快速发现错误的手段.应改
变用户以通读来识别结果并对照原文进行校对的现状,使系统更具实用性.
本文在总结全字符模板匹配的缺陷的基础上,提出一种基于特征行必要-充分性判定的 OCR 方法.该方法
通过特征行匹配并采用基线对齐的归一化方法来减少计算量并提高识别率.文章还提出了一种字符骨架与位
图重叠的识别结果显示方法,力图充分利用人眼的并行比较能力和提高用户校对速度.最后,通过实验数据的比
较对识别效率进行了分析.
1 全字符模板匹配方法的缺陷
字符的标准位图模板包含字符的所有特征,但字符的实际扫描位图与标准位图相比,边缘部分会有一些差
收稿日期: 2000-03-21; 修改日期: 2000-08-12
作者简介: 李佐(1967 -), 男,浙江温州人,博士,主要研究领域为计算机图形学,模式识别;王姝华(1974 -),女,江西南昌人,博士,
主要研究领域为计算机图形学,模式识别,文档分析理解;蔡士杰(1944 -), 男,江苏太仓人,教授,博士生导师,主要研究领域为计算机图
形学,CAD,人机交互,模式识别.
86 Journal of Software 软件学报 2002,13(1)
别.另外,在实际匹配中还可能出现待识别位图与模板错位的现象.因此,需要排除边缘差异给识别带来的困难.
定义1. 匹配结果位图N 中的非零像素点称为异点.设异点的集合为PN ,则PN ={p ≠0|p ∈N }.
定义 2. 如果异点是由同一笔划退化或错位所造成的,则称为边缘异点
文档评论(0)