中文名片识别系统.pdfVIP

  • 14
  • 0
  • 约9.63千字
  • 约 5页
  • 2015-09-29 发布于湖北
  • 举报
中文名片识别系统.pdf

第23卷第1期 成都信息工程学院学报 V01.23No.1 UNIVERSITYINFORMATIONTECHNOLOGY 2008年2月 JOURNALOFCHENGDU OF Eeb.2008 文章编号:1671—1742(2008)01,0021—04 中文名片识别系统 杨玉科, 何小海, 吴 炜, 徐锐义’ (四川大学电子信息学院图像信息研究所,四川成都610064) 摘要:在实际的商务活动中,名片已经作为一个重要的身份信息载体,使用频繁。然而随着名片数量的增多, 管理越来越麻烦。在实际应用中,研究名片识别的方法,介绍一个独立自主开发的中文商务名片识别系统。该系 统首先结合实际中的一些具体问题对名片图像进行预处理;然后在传统版面分析技术的基础上针对版面的特点进 行版面分析;最后在对分割区域的字符进行识别之后,根据识别结果中的语义和版面分析得到的位置信息对识别 结果进行基于知识规则的理解,从而实现了名片的识别。整个系统在实际应用中表现出良好的性能。 关键词:中文名片;识别系统;字符识别;版面分析;识别引擎 中图分类号:TN317.4 文献标识码:A 1 引言 中文商务名片包含了很多信息,一个中文商务名片识别系统可以帮助处理这些信息。但是,由于字体的多样 性和中文汉字的复杂性,使汉字的识别变得非常困难。在以往的文献中提出了许多文字识别的方法,例如,基于 笔划特征的识别方法…,基于外围特征的识别方法㈦2。这些方法都取得了不错的效果,但是由于名片的特殊性, 名片的印刷质量不好,名片中的字符包含一些噪声,使得提取笔划特征变得十分困难。名片中一些文字存在变 形、倾斜,外围特征对这些都非常敏感,因此在名片识别中也不能取得很好的效果。Gabor函数在图像纹理分析 虑到名片中存在一些中英文数字混合编排的情况,提出了一种基于识别结果的中文数字分割算法,取得了不错的 效果。 如果简单地将识别结果保存起来是没有实用价值的,还需要对识别结果进行分类处理。目前信息理解的方 法有很多,比较常用的是模版匹配的方法【4J,该方法将信息项在名片中的位置和信息的分类联系起来,但是由于 名片种类的多样性,很难保证高识别率。文中提出了一种基于位置关系和识别结果的理解方法,对不同种类的名 片都有很好的适应性。 。 2字符切分 这里主要研究版面分析以后的处理过程。对于版面分析输出的文字行,首先需要进行字符切分。汉字和英 文分别采用不同的切分方法。汉字是由笔划部件构成的方块字,字与字之间在垂直方向上有间隙。可以简单的 用投影的方法将有间隙的部件分离出来。汉字的长宽比一般为1:1,根据这个条件可以对分离出来的部件进行 合并处理,最后得到单个的切分字符(如图1所示)。对于英文部分,由于英文不存在左右需要合并的部分,但是 存在象“fo”这种上下重叠但中间存在空隙的情况,系统采用基于连通域的切分方法,将上下重叠但中间存在空隙 的英文字符切分开来,最后再根据上下关系对象“i”这种字符进行上下合并得到正确的切分字符,切分效果如图1 所示。 3字符识别 系统的识别部分包括中文识别引擎和英文识别引擎。考虑到笔划宽度多峰值,笔划多方向的特点,利用Gabor 收稿日期:2007.08—13;修订日期:2007.09.11 万方数据 成都信息工程学 院学报 第23卷 图1字符切分 小波的多分辨率特性,对中英文图像均进行多尺度多方向分析,提取多个子平面的滤波器输出系数作为统计特 征,实现字符图像的高性能识别。 , 选择的Gabor核函数如式(1)所示: 一2 G(x,Y,s,f)=Gl(z,y)sin(R)+iGl(z,y)[COS(R)一P专](1)

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档