谈谈汉字字母的黄金组合.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
谈谈汉字字母的黄金组合

谈谈汉字字母的黄金组合 由一个或多个特征字母所构成的字母组合,叫做特征字母组合,也称为黄金字母组合。之所以称之为黄金字母组合,是因为由特征字母组合具有极高的区分度,或者说是具有极低的重码率,对于小容量词语集,特征字母组合甚至能够实现零重码率,或者说是实现区分度的最大化,因而具有极高的应用价值,堪比黄金更珍贵。 首先,我们将提取每个汉字的3个特征字母所构成的特征字母组合与拼音字母组合进行比较。 以5743个常用汉字作为一个常用汉字集,总共对应着403个拼音字母组合(汉语拼音音节)、526个特征字母组合(黄金字母组合),平均每个拼音字母组合承担14.25个常用汉字,平均每个特征字母组合承担10.92个常用汉字。由此可见,特征字母组合数量大于拼音字母组合,平均每个特征字母组合上分布的常用汉字数量少于拼音字母组合。 特征字母组合包含有1~3个特征字母,因为有的汉字是由1个或者2个字母组成的,5743个常用汉字的特征字母组合总共包含有16788个特征字母,平均每个汉字的特征字母组合包含有2.92个特征字母;拼音字母组合包含有1~6个拼音字母,5743个常用汉字的拼音字母组合总共包含有17586个拼音字母,平均每个汉字的拼音字母组合包含有3.04个拼音字母。由此可见,汉字的特征字母组合长度略低于拼音字母组合长度。 下表列出了对5743个常用汉字的一组统计数据。表中的每个特征字母组合上的汉字数量和每个拼音字母组合上的汉字数量,是指汉字在每个特征字母组合或拼音字母组合上的分布情况,例如:特征字母组合“362”所对应的汉字是“阿”“剁”“肺”“脚”,所以,该特征字母组合上的汉字数量为4;拼音字母组合“ang”只对应汉字“昂”“盎”“肮”,所以,该拼音字母组合上的汉字数量为3。 每个特征/拼音字母组合上的汉字数量 1 2 3 4 5 6 7 8 9 10 对应的特征字母组合数量 72 48 42 38 31 30 25 19 19 19 对应的拼音字母组合数量 21 26 14 19 23 21 15 11 25 16 每个特征/拼音字母组合上的汉字数量 11 12 13 14 15 16 17 18 19 20 对应的特征字母组合数量 15 11 20 8 15 9 7 5 10 5 对应的拼音字母组合数量 14 20 15 13 13 14 10 8 9 11 每个特征/拼音字母组合上的汉字数量 21 22 23 24 25 26 27 28 29 30 对应的特征字母组合数量 6 8 7 3 2 3 3 3 4 5 对应的拼音字母组合数量 7 11 8 7 5 6 2 3 4 2 每个特征/拼音字母组合上的汉字数量 31 32 33 34 35 36 37 38 39 40 对应的特征字母组合数量 2 0 5 3 2 5 2 0 2 1 对应的拼音字母组合数量 0 2 1 4 0 2 2 3 1 1 每个特征/拼音字母组合上的汉字数量 41 42 43 44 48 49 50 51 52 53 对应的特征字母组合数量 1 0 1 1 1 0 1 1 1 1 对应的拼音字母组合数量 1 1 1 0 0 1 1 0 0 0 每个特征/拼音字母组合上的汉字数量 54 57 58 61 64 69 70 71 83 84 对应的特征字母组合数量 0 1 3 1 0 1 1 3 0 0 对应的拼音字母组合数量 2 0 0 0 2 0 0 1 1 1 观察上表统计数据发现:特征字母组合所对应的最大汉字数量为64个,拼音字母组合所对应的最大汉字数量为84个;当在各个字母组合上分布汉字数量少于等于15个时,所对应的特征字母组合数量为412个,所对应的拼音字母组合数量为266个,前者为后者的1.55倍;当在各个字母组合上分布的汉字数量大于15个时,所对应的特征字母组合数量为114个,所对应的拼音字母组合数量为137个,前者为后者的83.21%。 我们将从每个汉字中提取的3个特征字母组合成各种词语特征字母组合。例如,“中”字的特征字母组合为“226”,“国”字的特征字母组合为“258”,那么,两字词语“中国”的特征字母组合就是“226258”。 下面是对GB/T 15732-1995《汉字键盘输入用通用词语集》中各类词语集的统计数据。 该词语集规定了5743个一级两字词语,所对应的特征字母组合数量为5427个,共产生316个重码词语,重码率为5.50%,所对应的拼音字母组合数量为5281个,共产生462个重码(同音)词语,重码率为8.04%;该词语集规定了13404个两字词语,所对应的特征字母组合数量为11748个,共产生1656个重码词语,重码率为12.35%,所对应的拼音字母组合数量为11438个,共产生1966个重码(

文档评论(0)

ranfand + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档