中文信息处理技术原理和应用.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第一章 中文信息处理技术概论 信息处理的实质 汉字编码的种类与中文信息处理过程中汉字编码的变换 中英文兼容技术 ASCII体系的汉字内码 Unicode与Unicode汉字 中文信息处理系统五层结构模型 中文信息处理技术发展概况 信息处理的实质 信息和信息技术 文字信息处理 中文的文字信息处理的特点 信息和信息技术 1.信息 2.信息技术 文字信息处理 在多元化的信息中,文字信息是一种最通用、最普遍的表示形式。 文本信息的特点是:易于传播,所需存储空间小。但是由于世界各国语言文字存在较大差异,交流的群体受到限制。 计算机从处理数据发展到处理文字信息,代表应用技术上的一个重大进展。 文字信息处理的应用范围非常广泛,从编辑文稿,建立文件档案资料,排版印刷,到行政管理,办公室自动化,凡是需要用文字表达信息的应用场合,都可以利用文字信息处理技术。 文字处理技术是一项多学科的交叉技术。 文字信息处理的实质,是先把文字信息数字化,即用一个固定的数码代表一个字母或文字。 英文信息的处理 英文信息处理技术中,要考虑以下各种字母、数字和一些必须用的符号,它们是: A,B,C,…,X,Y,Z,共26个字母,包括大写和小写形式,共52个。 0,1,2,…,9,共10个阿拉伯数字。 +,﹣,×,=,,, …,!,?,﹡,﹝,﹙﹛,…,共32个图形符号。 用于计算机动作控制的控制符号,共34个。 以上共计128个字母、数字、符号的总和,统称为字符。 美国国家标准局制订了美国国家标准信息交换码(英文缩写为ASCII。这是一种用七位二进制数表示的代码。七位二进制数共可作出128种编码(27=128),正好分配给总数为128个字符)。 国际标准组织(ISO)规定依据ASCII制定作为英文字符编码的国际标准,即ISO 646。 中国在1975年依据ISO 646制定的七单位字符的编码标准(代号为GB1988),其中除了个别货币符号有了改动外,其余内容完全相同。 文字信息处理的全过程 (大致包含如下三个环节) 文字信息的输入 文字信息的处理 文字信息的输出 英文字符的点阵化表示 中文的文字信息处理的特点 中文是联合国六种工作语言之一,是中国56个民族所使用的主语言,也是世界上五分之一以上人口的主语言。 中文汉字是中国30种文字中使用最广的文字,方块汉字是其基本表现形式。 与英文相比较,中文的特点表现在字、词、语块、句子、句模和篇章等七个方面 。 中文字的特点:字多,形美,音少(不同的发音只有410余种,加上四声变化,总共1295种),义众,类难,序隐。 中文词的特点:定义糊--能够独立运用的有特定的音、形、义的最小句法单位(印欧语系中最小的句法单位是语素——morpheme),词类混,切分难,词频集中,词长短,词义众,识别易,构成与复合便,组句活,词库多。 中文语块乃是能够自由造句的基本句法单位。 中文句的特点:切分难(句乃能独立交际的最小语法单位),句型(句法上的句子模式称”句型”)多,简练,重意合。 句模(句法上的句子模式称”句模”)的特点是数量不多(不足200个)。 中文篇章的特点:简练,文体众多。 中文与英文最大的不同在于中文表述较为节省:表现同样意思的中文节省,节省了词的分隔符、性、数、格、时态、形态等的变化,动词可省掉语句的安排,省音节。中文语序多为聚焦型,英语1/2为发散型。国内有一个观点,认为中文的特点可用3S表示:简(Simple)、短(Short)、直(Straight)。但又有三大问题:同音字太多,四声变化与南腔北调。 对汉字特点的更加详细的分析 汉字的主要特点是它属于象形文字,字量大,字形复杂,和西文国家广泛使用的拼音文字有显著的区别 西文的特点是用少数结构简单的字母用线性规则排列组成单词。汉字不仅构成的笔画多,而且它是一种二维结构的图形 汉字的字量大 由于汉字字量大,字形复杂的主要特点,使汉字输入技术成为中文信息处理上的一个主要难题。通过汉字编码方法输入、光学汉字识别(OCR)、汉语语音识别输入等几个途径 与结构简单的英文字符相比,点阵式汉字字模要求用较高的点阵密度来表示。最少的汉字字模点阵表示要求15×16点,字形质量稍好些的要24×24点阵以上 和字符的输出要求相比,输出汉字字形要求输出设备的分辨率较高 汉字编码的种类与中文信息处理过程中 汉字编码的变换 汉字键盘码 汉字交换码 汉字内部码 汉字字形码 汉字地址码 汉字控制码 汉字键盘码 利用汉字编码方法,从键盘上产生的汉字代码称为汉字键盘码。 若是用各种汉字编码方案产生的汉字键盘码,由于所用的码元数较少,每个汉字一般平均须击键3.5—4次以上,所得键盘码的码长度就大,而且一般情况下,不同汉字的键

文档评论(0)

lyxbb + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档