汉字基本笔画分横竖撇点折五类应用效果分析.docVIP

汉字基本笔画分横竖撇点折五类应用效果分析.doc

  1. 1、本文档共9页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
汉字基本笔画分横竖撇点折五类应用效果分析

汉字基本笔画分横竖撇点折五类应用效果分析   一、“横竖撇点”四类      汉字是由单笔画组成的,了解与分析汉字的基本笔画是汉字字形编码、排序与检索研究的基础。   组成汉字的基本笔画有二十多种,如横(一)、竖(丨)、撇(丿)、点(丶)、捺(?T)、多种横折(?^?U乙)、多种竖折(?|?])、多种撇折(く纟)等等,利用这些基本笔画就可以对汉字进行编码、排序与检索。但在汉字中,这些基本笔画的使用频度很不均衡,如横(一)竖(丨)撇(丿)点(丶)四种笔画分布很广,而十多种不同的折笔画分布很稀,这样的编码与排检方法不仅效率低而且使用困难。   对于基本笔画多而杂且分布不均匀的问题,一个合理的解决方法是把基本笔画分为几类,把每个类作为分辨单元应用于汉字的编码与排检中。   对汉字基本笔画怎样进行分类呢?最简单直观的分类是按基本笔画起笔的走向来分,分为四类:   1.起笔画是从左到右:横,横提,各种横折笔画;   2.起笔画是从上到下:竖,各种竖折;   3.起笔画是从右上到左下:撇,各种撇折;   4.起笔画是从左上到右下:点,捺,捺钩。   通过笔画“横竖撇点”的四个走向来分,分类标准明确,概括性好,容易理解,各个基本笔画的归类都没有二义性。   把汉字基本笔画分为“横竖撇点”四类,各类在汉字中的分布情况如何呢?下表是对汉字第一笔画(第一码)的类别进行统计的数据,统计对象是三个字符集:一是常用2500字,二是GB2312的6763个字,三是GBK的21003个字。      可以看到,由于类数少,每类都包含了大量的汉字,并且分布不均匀。撇类与点类中的汉字数与平均数(25%)相当,但横区、竖区与平均数都相差约9%。      二、“横竖撇点折”五类      以“横竖撇点”四类为基础,把横与横折、竖与竖折、撇与撇折分开,把分出来的横折、竖折与撇折笔画另作为一类(折类),就形成了“横竖撇点折”五类的分类方法。   这种分类方法的优点是增加了一个类别,也减少了各类中的汉字数目,也就增加了每个类别对汉字的分辨率。   缺点是失去了基本笔画分类的明确准则,既不是按笔画的走向分类,如横折(?^)与竖折(?]),横折撇(?^)与撇折点(く),收笔的走向也不同;也不是按笔画的形状来分类,因为横折(乙)与撇折(く)等形状都很不同。   把这些不同的折笔画归为一类,主要的原因应该是增加分类数,减少各类中汉字的数目,以提高字形编码和排序检索方法的效率。   同样以三个字符集为统计对象,对汉字第一笔画(第一码)的类别进行统计,“横竖撇点折”五类在汉字中的分布情况如下表所示:      可以看出,横区与折区中汉字数目与平均数相差很大(9%)。   把汉字基本笔画分为“横竖撇点折”五类,已写入1965年中华人民共和国文化部和中国文字改革委员会发布的《印刷通用汉字字形表》,以及随后的有关国家语言文字标准与规范中,并被广泛地应用于汉字字形编码与排序检索等中文信息技术处理领域。   汉字字形编码方案已申请专利的有百多种,已形成产品使用的也有十多种,这些方案都采用了汉字基本笔画分“横竖撇点折”五类的国家语言文字标准规范,实际的效果如何呢?以下以具有代表性的两种形码方案为例进行分析。   “五笔字型”汉字输入法是字根类形码输入法,其字根表排布规则是把字根按其第一笔画的“横竖撇点折”分五个区,按字根第二笔画的“横竖撇点折”在区内分五个位,形成25个码。其结果是汉字在各个码中的分布极不均匀,如第一笔画是横,第二笔画是竖的字根有:十扌土艹木等;第一笔画是撇,第二笔画是竖折的字根有冂口囗日目见贝等,这些码上集中了太多的汉字,而第一笔是横,第二笔是折的字根却很少。如果要保持字根排布的规律性,即保持字根表的易记性,那么重码就太多,使得编码的效率很低,低过拼音输入法,而没有意义。为此五笔字型对字根做了大量的跨区跨位调整,重码率降低了,但字根表的序性破坏了,难学难记了。失去了严格序性的字根表,不适合用数字做编码符号,也就不能适用于数字键盘与手机。   其它的字根码类输入法也都同样地采用了基本笔画按“横竖撇点折”分五类的规范,不同是选用的字根有所不同,字根所在的位置有所不同,方案的实际效果与“五笔字型”相似。   “二笔”汉字输入法是双笔画类输入法,即把两个笔画的组合作为输入码,字根表也按第一笔画的“横竖撇点折”分五个区,按第二笔画的“横竖撇点折”在区内分五个位,形成25个输入码,其结果同样是汉字在各个码上的分布极不均匀。二笔输入法为了克服重码的问题,把字音做为补充码。由于拼音字母与数字没有直接的对应关系,因此二笔输入法也只适用于电脑的字母键盘,而不能适用于数字键盘与手机。   20多年的汉字字形编码方案研究的实践,都遵循了

文档评论(0)

317960162 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档