汉字特征分析与实验字取样策略.pdfVIP

  • 4
  • 0
  • 约1.54万字
  • 约 5页
  • 2015-08-20 发布于未知
  • 举报
一般工业技术

维普资讯 L4 几娄 I效学 l999年 9月第 5卷第3捌 文章编号 :1006—83I)I1999】03_)(】1405 汉字特征分析与实验字取样策略 郭小朝 (空军航 空医学研究所,北京 l00O36) 摘 要 :融汉字分析为基础,建议选取 6~l3画为笔画数 取样范围,把 10—4q9次 ,百万、5OO~4q9 准 /百万字坎作 为低 、高字频 实验收字 的字翱取样范围,认为成 宇部件在上 、下、左 、右 4个位置上的出现频率 是整字一部件识别研究中选择检测部件时的匹配因索之一。2视角64×64点阵大小黑、宋体汉字 图象的大部 分频谱能量分布在 0~8 】【周 /度的空 问额率范 围内,应在此范 围内进行模式识别研究,并将图像灰度矩 阵 的欧 氏距离作为汉字罔像 似性度量指标 关键词 :汉 字;笔画数;字频 ;部件频率 ;宅问频率 中圉分类号 :Hl23 文献标识码 :A 汉字属于大字符集文字。据说,东汉许慎的 4I14个字、《现代汉语常用字表》 35l】I]个字中 说《文解字》共收字 9353个,清朝陈廷敬等人的 的分布情况 如图 1所示。可 以看 出,取样 总体的 《康熙字典收字47043个.而近年出版的 《汉语大 4l14字词典字库基本 上反映 了 GB2312 8l【中 字典》收字则 多达 54678个 。但是 ,人们在 日 6763个汉字 的笔画数分布 ,更加真实地反映了常 常生活、工作和学习中使 用到 的只是其 中的一部 用字的笔画数分布。在所统计的4l14个汉字中, 分汉字。根据 国家语委公布的 《现代汉语通 用字 字数多于25O字的6~13画汉字共 3118个,占总 表》 ,这样的汉字有 70O0个 ;根据 GB2312—8O 字数 的7579% 因此 ,建议选取 6~13画为实验 信《息交换用汉字编码字符集 ·基本集》 的规定, 汉字 的笔画数取样范 围。 这样的汉字有 6763个 。其 中,GB23l2 8()以国 l2 汉字字频分布 家标准的形式界定了信 息交换 的基本用字 范围, 《汉字信息字典》(1988) ]和 《现代汉语频率 事实上也指明了汉字识别研究的最佳取样总体: 词典》(1986)都给出了其中汉字 的字频数据,说 明 L 汉字笔画数 、字频、部件数及结构方式分析 不同汉字的使用或出现频次 《汉字信 自字典》中 《现代汉语频率词典》统计 了 l808l14字次 的有关字频数据主要反映 了 l976年 以前的汉字 的文字材料.得到 4574个不同的汉字。这 4574 使用情况:鉴于改革开放 以后人们对汉语的使用 个汉字和 GB23l2—8O中的一、二级字(3755字 、 情况已经有了根本性的变化,作者倾向于采纳 现《 3O08字)可以起到相互参照的作用。如果从字频 代汉语频率词典》中的字频数据作为实验研究的 高于 l6.6次 /百万字次的24l8个汉字来观察,它 字频依据 。 们的累计 覆盖率高达 9901【%以上l。因此,将 词典字库 中 4l14个汉字 以及其中 3l18个 词典 议《字频率表》内字频 不低于 lO次 /百万字 6~l3画汉字的字频分布大致如 图2所示。由于 次的4114个汉字作为汉字识别研究的取样总体 字颧高于 5(10次 /百万字次 的汉 字 只有 4l7个 是可取 的。 (1()l4%),其中6~l3画字 287个 (占全部 6~l3 ll 汉字笔画数分布 画字的920%),而且分散在很大的字频范围内, 汉字笔画数在 国标字库 6763个字、词典字库 将这部分汉

文档评论(0)

1亿VIP精品文档

相关文档