中文名片识别系统.pdfVIP

下载本文档

14
0
约9.63千字
约 5页
2015-09-29 发布于湖北
举报

中文名片识别系统.pdf

第23卷第1期成都信息工程学院学报 V01．23No．1 UNIVERSITYINFORMATIONTECHNOLOGY 2008年2月 JOURNALOFCHENGDU OF Eeb．2008 文章编号：1671—1742(2008)01，0021—04 中文名片识别系统杨玉科，何小海，吴炜，徐锐义’ (四川大学电子信息学院图像信息研究所，四川成都610064) 摘要：在实际的商务活动中，名片已经作为一个重要的身份信息载体，使用频繁。然而随着名片数量的增多，管理越来越麻烦。在实际应用中，研究名片识别的方法，介绍一个独立自主开发的中文商务名片识别系统。该系统首先结合实际中的一些具体问题对名片图像进行预处理；然后在传统版面分析技术的基础上针对版面的特点进行版面分析；最后在对分割区域的字符进行识别之后，根据识别结果中的语义和版面分析得到的位置信息对识别结果进行基于知识规则的理解，从而实现了名片的识别。整个系统在实际应用中表现出良好的性能。关键词：中文名片；识别系统；字符识别；版面分析；识别引擎中图分类号：TN317．4 文献标识码：A 1 引言中文商务名片包含了很多信息，一个中文商务名片识别系统可以帮助处理这些信息。但是，由于字体的多样性和中文汉字的复杂性，使汉字的识别变得非常困难。在以往的文献中提出了许多文字识别的方法，例如，基于笔划特征的识别方法…，基于外围特征的识别方法㈦2。这些方法都取得了不错的效果，但是由于名片的特殊性，名片的印刷质量不好，名片中的字符包含一些噪声，使得提取笔划特征变得十分困难。名片中一些文字存在变形、倾斜，外围特征对这些都非常敏感，因此在名片识别中也不能取得很好的效果。Gabor函数在图像纹理分析虑到名片中存在一些中英文数字混合编排的情况，提出了一种基于识别结果的中文数字分割算法，取得了不错的效果。如果简单地将识别结果保存起来是没有实用价值的，还需要对识别结果进行分类处理。目前信息理解的方法有很多，比较常用的是模版匹配的方法【4J，该方法将信息项在名片中的位置和信息的分类联系起来，但是由于名片种类的多样性，很难保证高识别率。文中提出了一种基于位置关系和识别结果的理解方法，对不同种类的名片都有很好的适应性。。 2字符切分这里主要研究版面分析以后的处理过程。对于版面分析输出的文字行，首先需要进行字符切分。汉字和英文分别采用不同的切分方法。汉字是由笔划部件构成的方块字，字与字之间在垂直方向上有间隙。可以简单的用投影的方法将有间隙的部件分离出来。汉字的长宽比一般为1：1，根据这个条件可以对分离出来的部件进行合并处理，最后得到单个的切分字符(如图1所示)。对于英文部分，由于英文不存在左右需要合并的部分，但是存在象“fo”这种上下重叠但中间存在空隙的情况，系统采用基于连通域的切分方法，将上下重叠但中间存在空隙的英文字符切分开来，最后再根据上下关系对象“i”这种字符进行上下合并得到正确的切分字符，切分效果如图1 所示。 3字符识别系统的识别部分包括中文识别引擎和英文识别引擎。考虑到笔划宽度多峰值，笔划多方向的特点，利用Gabor 收稿日期：2007．08—13；修订日期：2007．09．11 万方数据成都信息工程学院学报第23卷图1字符切分小波的多分辨率特性，对中英文图像均进行多尺度多方向分析，提取多个子平面的滤波器输出系数作为统计特征，实现字符图像的高性能识别。，选择的Gabor核函数如式(1)所示：一2 G(x，Y，s，f)=Gl(z，y)sin(R)+iGl(z，y)[COS(R)一P专](1)

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

中文名片识别系统.pdfVIP