- 7
- 0
- 约1.16万字
- 约 6页
- 2019-11-30 发布于天津
- 举报
中 文 信 息 学 报
第 卷 第 期
手写 印刷体汉字 的笔段抽取及偏旁识别
胡家忠
武汉工业大学
【 】本文采用 对汉 字点 阵 图 行方 向变 的方 法 汉字 的笔 , 用 结构
摘要 象进 攘 抽取 段 采 分
析 的方 法识 别 分布 于汉字 四周 的偏 旁, 对 国标 一级汉 字 中的 卯 类偏 旁计 一 万余字进行 了
偏旁抽取试验, 当侯选偏 旁数 万 时 , 累计正确侯补率 好
一 、 目 舀
、
写 印 汉 别 的 重 由于 的字 多 杂 ,
手 刷体 字识别是模 式识 中 一个 要课题 汉字 数 结构复
为了高速地识别每一个扫描输人 的汉字 , 笔者认为采用三级分类识别 的方法较好 即首先
按分布于汉字 四周局部 区域 的偏旁进行第一级粗分类 , 接着按 四周外 围特征进行第二级细
。
分类, 最后进行逐字详细识别
我们知道, 汉字 的结构 虽然复杂, 但汉字都是 由直线线段构成 的, 而且这些线段具有
横、 竖 、 擞、 捺 四个 方 向 多数汉字 约 占 具有偏旁, 这些偏旁分布于汉字 四周
的局部 区域 , 并且 由少数笔段组成 相对汉字来说, 它们的种类少, 结构简单 , 因此 , 在
进行逐字识别前, 如果能先识别它们 的偏旁, 无疑是进行汉字识别 的一条捷径 采用传统
匹 方 , 于 , 变 , 的 划少 , 之
的模板 配 法 由 书写者书写风格各异 字形 化大 再加上偏旁 笔 它们
间的区别往往只有一 笔之差 , 为 了保证分类 的精度, 不得不采用多个模板 , 选用多个侯补
偏旁的办法来满足后级分类 的需要 , 这样反过来又导至分类速度下 降, 达不到分类既快又
准的要求
正 因为偏旁分布于汉字 四周 的外 围部分, 笔段 比较容 易提取 , 它们之 间的区别往往在
于少数笔划及其位置分布, 如果能够正确地提取分布于汉字 四周 的笔段 , 则采用结构分析
的方法就能较好地识别汉字 的偏旁 本文介绍将输人汉字 的点 阵 图象进行方 向变换 的方
、
法, 抽取汉字 的笔段 利用 对各种偏旁 的先验知识, 按照线段 的长度 方 向及其相互位置
关系进行分析判 断, 达到正确抽取汉字偏旁 的 目的 这种方法 的优点是能够保存原始 图象
原创力文档

文档评论(0)