网站大量收购独家精品文档,联系QQ:2885784924

中文信息处理技术原理与应用2.pptVIP

  1. 1、本文档共23页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
中文信息处理技术原理与应用2.ppt

第二章 汉字编码输入原理 汉字和汉字属性 汉字编码输入方法 汉字键盘码的笛卡尔积集分析 汉字信息的熵值 海曼公式与汉字编码的键盘特性 汉字编码输入方法简易评测方法 汉字编码输入方法专业评测方法 汉字键盘码的译码问题 有关中文输入技术现状与发展的几个问题 汉字和汉字属性 汉字发展及其分级 汉字的结构分析 汉字的字音和字义 汉字的排序 汉字的属性 汉字发展及其分级 据考古发现的甲骨文实物的考证,中国古代汉字的记载可追溯到公元前1300年,至少已有3000多年的历史。 汉字的形态,可以归纳出它包括象形字、表意字、形声字和假借字。 最早可以考证的甲骨文汉字约有3000个左右。 目前中国日常通用的汉字过6000~7000个。其它五万多个属生僻字,却仍然保留在古籍资料,以及某些人名、地名等中使用。目前,六万字以外新造汉字几乎已无必要,而用某些汉字衍生新词则不断有所发展。 虽然现代汉字已压缩到6000~7000之数,但仍然是一个庞大的数字,作为文字信息处理时有不方便之处。和英文的26个字母相比,是一种“大字符集”。实际应用中,这些数量的汉字并不是频率均等地使用的,应按照使用频度对它们分级。GB2312-80基本集,一级字3775个,二级字3008个,共6763个。 汉字的结构分析 位点 按照目前用计算机处理汉字的,构成点阵式汉字字模的最小单位是“位点”,也就是二进制信息中的一位。 笔画 楷书汉字的基本笔画有六种。即 一,丨,丿,乀,,乚 这六种笔形,按其方向来区分,可以分为两类: 1、单向笔画,如 一,丨,丿,乀, ノ 2、复向笔画,如 弯笔(,乛,) 拐笔(乚, 巜, ) 实际上,在按笔形编码的汉字输入方案中,根据需要,可以另行定义其它的复笔结构,以提高汉字的编码效率。 部首 汉字部首的数量也较大,楷体汉字共有部首214个,作为传统的部首一直沿用到现在。实用角度出发,适当地简化部首,把汉字部首简化到100个左右 字根 单字 字根 字根是汉字形体的基本结构单元。字根这一概念,通常人们对它比较模糊。同时也无统一的选择标准。在名称上也存在多种叫法,例如,称作字母、形母、部件、组件、字元、构件、符号等。 构成字根的笔画间有“单、散、连、交”四种形式。只有单笔关系的字根是:一,丨,丿,乀, ,乚;只有散笔关系的字根如:二,三,八,习,夕,冫,氵;只有连笔关系的字根如:工,厂,匚,歹,卜,止,冂,月,口,足,日,目,四;只有交笔关系的字根如:十,犭,乂,卄,卅;兼有散、连二种关系的字根如:彳,讠,衤,疒;兼有散交二种关系的字根如米,卜;兼有连、交二种关系的字根如:耳,王,大,禾,巾;散、连、交三种关系都有的字根如雨,西,舟,鱼。 单字 单字的字根构成种类 :按照单字中所含字根数目的多少,可以分为四类: (1)?????单根单字 (2)?????二根单字 (3)?????三根单字 (4) 四根(或多根)单字。 字的字型分类:字型是单字结构的字根相互间的结构类型,可以分成四种。 (1)独体型。由单式、连式、交式字根组成的单字,结构紧密,独自成为一体,这 样的构型称作独体型。 (2)左右型。单字内分成左根和右根二半,中间有一定间隙的散式构型,称为左右型。 (3)上下型。单字内分成上根和下根二半,中间有一定间隙的散式构型,称为上下型。 (4)包围型(又称内外型)。单字内一个内根被一个外根全部或局部包围的散式构型,称为包围型。 汉字的字音和字义 汉字的字音 汉字的发音由汉语的发音而来。构成语音的最小单位,称为“音素”。音素中包括元音音素和辅音音素两类。汉语普通话共有元音音素6个,辅音音素22个。一个元音可以单独成为一个音节;一个辅音则必须配合一个以上的元音才能构成一个音节。一个汉字的发音就由一个音节构成。 在以字音为基础的汉字编码方案中广泛应用的一种方法称为声韵双拼法。把每个汉字的发音部分,分解成声母和韵母二部分。声母相当于辅音,韵母则相当于元音。可以归纳出22个声母;35个韵母。严重的情况,可以举出同一声、韵、和音调可以对应有数十个、甚至超出一百个字的情况。 若用汉语发音作为汉字信息的输入,必须要采取其它有效的措施。 汉字的字义 汉字的字义也很复杂。成千上万个汉字,一般汉字,每个字常有2~5种意义,多的达6~9种意义。 在信息处理中,单独使用汉字的字义作为输入方法是不可能的。但在有些编码输入方案中,利用字义作为辅助的区分汉字特征的手段。 汉字的排序 流水排序法 拉丁字母排序 拆字定码排序法 汉字的属性 汉字字量 汉字字形 汉字字体 使用频度 汉字的发音 汉字字义 汉字排序汉字信息交换码 汉字编码输入方法 整字输

文档评论(0)

heroliuguan + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:8073070133000003

1亿VIP精品文档

相关文档