北京工业大学研究生-汉字特征提取.ppt

  1. 1、本文档共74页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
北京工业大学研究生课件-汉字特征提取剖析

第10讲 印刷体汉字的特征提取 要点: 印刷体汉字的归一化方法 特征提取的重要性 印刷体汉字的常用识别特征 课堂练习 印刷体汉字的归一化方法 汉字被输入到计算机中提取特征前通常需要做归一化处理。归一化有三种: 位置归一化 大小归一化 笔划粗细归一化 返回 位置归一化 什么是位置归一化 位置归一化的方法 噪声对位置归一化的影响 返回 什么是位置归一化 为了消除汉字点阵位置上的偏差,需要把整个汉字点阵图形移动到规定的位置上,这个过程被称做位置归一化。 返回 位置归一化的方法 基于质心的位置归一化 基于汉字外边框的位置归一化 返回 基于质心的位置归一化 首先计算汉字的质心,然后再把质心移动到指定的位置上来。 质心计算举例 返回 汉字质心的计算 水平质心: 质心计算举例 各行各列黑点数 各行黑点数:I=16 1,1,12,2,2,8,1,1,1,14,1,1,1,1,2,1 各列黑点数:J=16 0,2,3,3,3,4,5,10,4,4,3,2,3,3,1,0 质心计算结果 基于汉字外边框的位置归一化 首先计算汉字的外边框,并找出中心,然后把汉字中心移动到指定的位置上来。 返回 噪声对位置归一化的影响 基于质心的位置归一化方法抗干扰力更强。返回 大小归一化 什么是大小归一化 大小归一化的作用 大小归一化的方法 大小归一化的缺点 返回 什么是大小归一化 对不同大小的文字做变换,使之成为同一尺寸大小的文字,这个过程被称做大小归一化。 返回 大小归一化的作用 通过大小归一化,许多特征就能够用于识别不同字号混排的文字 返回 大小归一化的方法 基于外框的大小归一化 基于散度的大小归一化 返回 基于外框的大小归一化 将汉字的外边框按比例线性放大或缩小成为规定尺寸的汉字。举例 放大时需要考虑如何加点的问题 缩小时需要考虑如何减点的问题 不同的近似方法可能产生不同的结果 返回 基于外框的大小归一化举例 返回 放大时的加点问题 缩小时的减点问题 基于散度的大小归一化 根据水平和垂直两个方向文字黑像素的分布进行大小归一化。 水平散度?x和垂直散度?y的计算 散度的计算举例 基于散度的归一化举例 返回 水平散度和垂直散度的计算 返回 散度计算举例 基于散度的归一化举例 返回 大小归一化的缺点 基于外框的大小归一化对噪声影响很敏感 基于散度的大小归一化对于有些字,如“目”、“且”,归一化后会使它们的形状更相似而难以区别 返回 笔划粗细归一化 什么是图像细化 图像细化的作用 图像细化的特点 图像细化的方法 图像细化举例 返回 什么是图像细化 一个图像的“骨架”是指图像中央的骨骼部分,是描述图像几何及拓扑性质的重要特征之一。 求一个图像骨架的过程通常称为对图像的“细化”过程。 返回 图像的骨架举例 图像细化的作用 在字符识别、地质构造识别、工业零件形状识别或图像理解中,先对被处理的图像进行细化有助于突出形状特点和减少冗余的信息量 返回 图像细化的特点 在细化过程中,图像有规律的缩小 在缩小过程中,图像的连通性质保持不变 返回 图像细化的方法 把一幅图像中的一个3×3区域,对各点标记名称P1, P2,…, P9, 其中P1位于中心。 如果P1 =1(即黑点),在下面四个条件同时满足时,删除P1 (即使P1 =0)。 返回 3×3区域的各点标记 返回 图像细化的四个条件 2?NZ(P1)?6, NZ(P1)=P2+ P3+…+P9 Z0(P1)=1, Z0(P1)=?P2*P3 +…+ ?P8*P9 + ?P9*P2 P2* P4* P8=0 或者Z0(P2)?1 P2* P4* P6=0 或者Z0(P4)?1 返回 图像细化举例 特征提取的重要性 印刷体汉字识别中的关键问题是特征提取问题,尤其是提取那些比较具有分类价值,同时又比较容易通过程序计算得到的那些特征,以及那些对字体的不同、汉字大小的不同和噪声的影响等因素不敏感的特征。 返回 印刷体汉字的常用识别特征 复杂指数, 四边码, 粗外围特征 粗网格特征, 笔划密度特征 汉字特征点, 包含配选法 基于小笔段的层次结构, 差笔划 返回 复杂指数 字符在x和y方向的复杂指数定义为: 复杂指数反映了字符的x和y方向笔划的复杂程度,对字符的位置和大小不敏感。 复杂指数举例 返回 复杂指数举例 ?x =3.869 ?y =3.325 cx =12.92 cy =15.04 返回 四边码 从字符周围边框开始,向内取适当的宽度,以此宽度分割出四周的四个部分。根据每一个部分中含有的文字黑像素的多少分为四级编码(0,1,2,3)。 四边码特征对字符的断线适应性较强。 四边码举例 返回 四边码举例 下图中“昨”字的四边码为“

文档评论(0)

wyjy + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档