中文信息处理技术原理与应用(二).ppt

中文信息处理技术原理与应用 liba2002@ 清华大学出版社 中文信息处理技术原理与应用 liba2002@ 清华大学出版社 * 中文信息处理技术原理与应用(二) 北京信息科技大学计算机学院 李宝安 * 第二章 汉字编码输入原理 汉字和汉字属性 汉字编码输入方法 汉字键盘码的笛卡尔积集分析 汉字信息的熵值 海曼公式与汉字编码的键盘特性 汉字编码输入方法简易评测方法 汉字编码输入方法专业评测方法 汉字键盘码的译码问题 有关中文输入技术现状与发展的几个问题 * 汉字和汉字属性 汉字发展及其分级 汉字的结构分析 汉字的字音和字义 汉字的排序 汉字的属性 * 汉字发展及其分级 据考古发现的甲骨文实物的考证,中国古代汉字的记载可追溯到公元前1300年,至少已有3000多年的历史。 汉字的形态,可以归纳出它包括象形字、表意字、形声字和假借字。 最早可以考证的甲骨文汉字约有3000个左右。 目前中国日常通用的汉字过6000~7000个。其它五万多个属生僻字,却仍然保留在古籍资料,以及某些人名、地名等中使用。目前,六万字以外新造汉字几乎已无必要,而用某些汉字衍生新词则不断有所发展。 虽然现代汉字已压缩到6000~7000之数,但仍然是一个庞大的数字,作为文字信息处理时有不方便之处。和英文的26个字母相比,是一种“大字符集”。实际应用中,这些数量的汉字并不是频率均等地使用

文档评论(0)

1亿VIP精品文档

相关文档