基于多特征融合的古汉字特征提取方法.docVIP

  • 3
  • 0
  • 约3.39千字
  • 约 6页
  • 2018-03-10 发布于北京
  • 举报

基于多特征融合的古汉字特征提取方法.doc

基于多特征融合的古汉字特征提取方法   摘要:该文通过基于部件结构特征与全局点密度特征相融合的串行特征提取方法以及基于网格特征和局部点密度特征相融合的并行特征提取方法,较好满足了高区分度、高稳定性以及典型性的特征提取要求。   关键词:结构特征;统计特征;特征融合   中图分类号:TP18文献标识码:A文章编号:1009-3044(2011)31-0000-0c      1 引言   古汉字图像的特征提取方法可以分为结构特征以及统计特征两类。结构特征的优点是能够描述字符的结构,将字符模式整体分解为笔划,笔段、字根,以及上下,左右,独体等子模式[1],区分相似字能力强。在识别过程中可以有效地结合几何和结构的知识,因此能得到可靠性较高的识别效果。而文字的统计特征是基于图像的统计信息获取到的特征。统计特征通常需要通过函数变换或统计得到,并且与结构特征功能够达到微观和宏观上的互补。统计特征常计算密度、图像网格特征值以及图像进行函数变换,矩变换后的统计特征值等。总体而言统计特征相对结构特征,细分能力较弱,区分相似字的能力不强,但统计特征信息具有更强的抗干扰能力,对不规则的手写体古汉字图像具有非常明显的识别效果。因此,本文将两类特征结合在一起,分级进行粗细分类识别,已期达到最稳定有效的识别效果。      2 基于结构与全局点密度特征的串行融合方法   将古汉字的部件结构特征划分为四大类,即上下结构,左右结构,独体结构以及内外结构,通过部件结构特征对字符集的第一层分类,由先验知识对字符库中全局点密度差异,确定分类的阀值分别为a1、a2、a3、a4,,利用全局点密度特征[2],将字符集进一步细分,两组特征串行融合,对字符进行粗分类。   基于部件结构和全局点密度的融合矩阵(如式1)所示。   其中aij表示经过结构特征的粗分类后,对第i类结构提取的第j类全局点密度阀值。实现对大字符图像集进行结构粗分类,然后再根据全局点密度进一步细化,从而获得更小的字符图像分类特征,为后续分类识别提供范围更小的字符集分类,为提高识别的正确率和效率奠定基础。   为了获得已输入古汉字图像的部件结构特征,对古汉字字符图像沿着垂直方向和水平方向分别进行投影,如果垂直方向有笔划像素数梯度存在中间为零的字符图像,即可认为是左右结构。如果水平方向有笔划像素数梯度存在中间为零的字符图像,即可认为是上下结构。如果水平方向和垂直方向都没有笔划像素数梯度存在中间为零的字符图像,并且没有两个方向都没有连通,即可认为是独体字。如果水平方向和垂直方向都没有笔划像素数梯度存在中间为零的字符图像,并且处于连通关系,即可认为是内外结构。   以下是对“保”“”“来”“月”字(如图1)所示,分别沿水平和垂直方向进行字符投影的直方图(如图2)。   古汉字的书写因手写的形态而各异,因此,同一个字符的全局密度有差异,对于此问题,在图像预处理阶段,已将尽可能出现的差异减到最小,如图3是不同形态的古汉字“大”字图像经过预处理的效果图,根据公式(3-1)对不同形态的古汉字“大”字进行全局点密度特征提取,提取到的全局点密度的值分别:0.0356,0.0359,0.0365和0.0364。从提取到的值中可以看出同一个字的不同形态的全局点密度特征值,虽有差异但非常小,是在我们允许的阀值范围内的。   图3不同形态的古汉字“大”字图像经   而对古汉字“门”字的全局点密度值分别为0.0644,0.0636,0.0622,0.0629,0.0626。与“大”字的密度值相差很大。因此,比较不同古汉字图像的全局点密度可以看出,不同的图像的全局点相差相对来说是比较大的。因此将全局点密度作为将字符集分类的一个特征。由于对不同复杂程度的古汉字,全局点密度的差异可能比较大,为了能更好的区分,这里将密度级别划分为5个区域。   图4 全局点密度区分图   如图4所示,使用全局点密度将字符图像分为5类,在实际操作过程中,不同类别的全局点密度特征值取相对具有区分性的阀值,同时阀值的选取是经过大量实验研究以及分析得出的。   3 基于网格和局部点密度特征的并行融合方法   将128×128的原古汉字图像网格划分为8×8的弹性网格[3] [4],分别从上/下(900)、左/右(00)、左/下(450)以及右/下(1350)四个方向扫描图像,每个方向各7条扫描线,统计每条扫描行中像素点的值,得到特征矩阵,分别如式(2)所示:   其中M=7,N=7,kij为某方向上扫描线中穿过像素个数的总和,即获得了网格内像素值的特征。同时由于将原始图像划分为8×8的弹性网格,此时每个网格的局部点密度特征能有效的反应细节的变化,对识别相似字非常有效。因此对64个网格提取局部点密度特征。利用式(3)计算可得到

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档