一种新加权动态网格汉字特征抽取方法.docVIP

一种新加权动态网格汉字特征抽取方法.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一种新加权动态网格汉字特征抽取方法

一种新的加权动态网格汉字特征抽取方法   (北京邮电大学 信息工程学院,北京 100876)   摘 要:为了更有效地提取手写汉字的特征,提高识别精度,本文提出了一种利用非线性归一化过程产生的坐标变换信息来提取手写汉字有效特征的方法。该方法通过非线性归一化获得各有效像素点在原汉字图像及规整后汉字图像中的坐标变换关系,在原图像上抽取各点特征,在归一化图像上进行网格的均匀划分和特征统计并形成用于分类的特征向量。该方法有效克服了以往先进行归一化预处理方法和动态网格方法的一些不足,兼顾了与传统结构特征提取方法的有效结合。针对HCL2000脱机手写汉字库大字符集样本的实验结果表明,该特征提取方法可有效提高识别精度和特征抽取速度。   关键词:人工智能;模式识别;手写汉字识别;非线性归一化;加权动态网格;特征提取   中图分类号:TP391.43 文献标识码:A      1 引言      特征提取是汉字识别过程中非常重要的环节,也是当前的研究热点之一。提取出分类能力强、具有高鲁棒性的特征是整个汉字识别系统成功的关键。   自由手写体汉字,总是或多或少的存在大小不固定、密度不均匀、整体或局部位置有偏移等现象,这些现象对特征抽取和整个识别过程会造成比较大的影响[1,2]。针对这种情况,现在使用比较广泛的做法是在预处理阶段采用非线性归一化[3~5]或在特征抽取阶段使用动态网格[6,7]。   在预处理阶段使用非线性归一化的方法,是根据原汉字图像在水平、垂直两个方向上的密度投影(包括根据点密度、线密度和穿越笔画数等密度计算方法[5])对图像进行变换,得到笔画密度相对均匀的汉字图像并在该图像上进行特征提取,这种方法可以在一定程度上补偿笔画分布不均、笔画位置偏移等情况,但与此同时也会引入一些形变,如笔画方向的改变、笔画边缘的锯齿、像素间相对位置的改变、笔画断裂的加大、笔画粗细的变化等,如图1所示,这些形变一定程度上影响了抽取出的特征对原汉字图像的表达能力,进而影响整个系统的识别精度。   在特征抽取过程中使用的动态网格方法,实际上就是在归一化图像上进行均匀的网格划分,将这些网格映射到原汉字图像上形成非均匀的网格,在这些非均匀的网格内提取汉字图像特征的过程。这种动态网格的方法将密度均衡与网格划分相结合,避免了由图像归一化引入的畸变,但由于各动态网格大小不等,抽取出的特征大小会有较大变化,所以在抽取特征后需要根据网格大小或所含黑像素数等进行归一化,在此过程中对各像素点一致对待,会造成一些有用信息的丢失,进而对后面的识别过程产生不利影响。   本文的方法有效结合了以上两种方法的优点,并进行了一些改进:首先通过逆向映射的非线性归一化获得像素点位置的坐标变换信息,在原图像上进行各点特征的提取,并在归一化图像上进行网格的均匀划分和特征统计并形成最终的特征向量。通过逆向映射,我们可以得到原图像中有效像素点到归一化图像中有效像素点的一对多的映射关系,相当于传统动态网格方法的基础上为像素点进行了加权处理。用这种方法抽取的特征,包含了对高密度和复杂区域像素点特征的加权信息,克服了对原图像进行非线性归一化变换带来的畸变的影响,可以更有效的对样本进行分类。本方法的另一个优点是可以方便地应用原来静态网格使用的各种网格划分和特征提取方法,在一定程度上提高了特征提取的效率。   该特征提取方法流程框图如下:         2 非线性归一化的坐标变换      由汉字图像我们可以得到反映笔画疏密程度的密度图像,将密度图像在垂直和水平两个方向上进行投影得到密度投影直方图,根据投影直方图曲线逆变换得到原图像与归一化图像各有效像素点的坐标变换关系。      为了能够有效反映汉字图像的结构特征,我们使用改进的基于线间距离的点密度定义作为非线性归一化的依据。对于图像中的白像素点,两个方向上的密度分别定义如下:      对于图像中的黑像素点,定义FH(i,j)为同一行上所有白像素点的水平方向点密度的均值,Fv(i,j)为同一列上所有白像素点的竖直方向点密度的均值。这样,笔画间隔越小的位置点密度越大,反映了汉字图像不同位置上的笔画疏密程度,使用该点密度定义可以对汉字字形进行有效的规整。   设H(i)和V(j)分别是汉字图像在水平和垂直方向的密度投影函数,其定义如下:      其中aH和av是微调常数,对于简单点密度定义有FH(i,j)=Fv(i,j)=D(i,j),设φH(i)和φv(j)分别是图像在水平和垂直方向的累积密度投影,定义如下:      这样就得到了非线性归一化的逆向坐标变换关系,基于该坐标变换 关系,可以方便的提取归一化图像上各像素点在原图像上对应像素的特征,并在归一化图像上进行特征值的累加形成最终的特征向量。

文档评论(0)

erterye + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档