中文信息处理技术原理和应用.ppt

  1. 1、本文档共23页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
)请革大学出版社 中文信息处理技术一一原理与应用 中文信息处理技术原理与应用 (二) 北京信息工程学院计算机系 李宝安 )请革大学出版社 中文信息处理技术一一原理与应用 第二章汉字编码输入原理 汉字和汉字属性 汉字编码输入方法 汉字键盘码的笛卡尔积集分析 汉字信息的熵值 海曼公式与汉字编码的键盘特性 汉字编码输入方法简易评测方法 汉字编码输入方法专业评测方法 汉字键盘码的译码问题 有关中文输入技术现状与发展的几个问题 大出版社中文信息处理技术一一原理与应用 汉字和汉字属性 汉字发展及其分级 汉字的结构分析 汉字的字音和字义 汉字的排序 汉字的属性 国)谪大浮出版社 中文信息处理技术一一原理与应用 汉字发展及其分级 据考古发现的甲骨文实物的考证,中国古代汉字的记载 可追溯到公元前1300年,至少已有3000多年的历史。 汉字的形态,可以归纳出它包括象形字、表意字、形声 字和假借字。 最早可以考证的甲骨文汉字约有3000个左右。 目前中国日常通用的汉字过6000~7000个。其它五万 多个属生僻字,却仍然保留在古籍资料,以及某些人名、 地名等中使用。目前,六万字以外新造汉字几乎已无必 要,而用某些汉字衍生新词则不断有所发展 虽然现代汉字已压缩到6000~7000之数,但仍然是一 个庞大的数字,作为文字信息处理时有不方便之处。和 英文的26个字母相比,是一种“大字符集”。实际应用 中,这些数量的汉字并不是频率均等地使用的,应按照 使用频度对它们分级。GB2312-80基本集,一级字3775 个,二级字3008个,共6763个。 c)诸革大学出版社 中文信息处理技术一一原理与应用 汉字的结构分析 位点 按照目前用计算机处理汉字的,构成点阵式汉字字模的最小单位是“位点”,也 就是二进制信息中的一位。 笔画 楷书汉字的基本笔画有六种。即 这六种笔形,按其方向来区分,可以分为两类: 1、单向笔画,如 2、复向笔画,如弯笔(,一,》)拐笔(L,《,) 实际上,在按笔形编码的汉字输入方案中,根据需要,可以另行定义其它的复笔 结构,以提高汉字的编码效率。 部首 汉字部首的数量也较大,楷体汉字共有部首214个,作为传统的部首一直 沿用到现在。实用角度出发,适当地简化部首,把汉字部首简化到100个 左右 字根 单字

文档评论(0)

130****9768 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档