- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
汉字的信息处理
一、什么是汉字信息处理 汉字的信息处理(Chinese character information processing),指的是用电子计算机对汉字进行转换、传输、存贮、分析等加工过程。汉字信息处理与汉语信息处理共同组成中文信息处理。 中文信息处理是指用计算机对中文的音、形、义等信息进行处理和加工。中文信息处理是自然语言信息处理的一个分支,是一门与语言学、计算机科学、心理学、数学、控制论、信息论、声学、自动化技术等多种学科相关联的边缘交叉性学科。信息处理技术在现代有广泛的应用,从上世纪八十年代开始,中文信息处理进入了快速发展阶段,并极大地提高了中文社会的信息处理效率。 二、汉字信息处理过程 (一)汉字信息处理过程的三个阶段 1.汉字信息的输入 2.汉字信息的处理 3.汉字信息的输出 (二)汉字信息处理的历史 据统计,全世界使用汉字的人数约占世界总人口的 36% 。虽然汉字是世界上使用人数最多的文字之一,但早期的计算机是不能处理汉字信息的。拼音文字如英文,其单词可以由为数不多的字母通过不同的排列来构成。因此,用计算机来处理就比较简单。而表意文字如汉字,其构成词的符号是独立的。不但符号数量多,而且结构复杂,计算机处理起来就比较困难。 自20世纪60年代以来,日本、中国及其他一些国家相继开展了汉字信息处理的研究。1974年,我国将汉字信息处理研究课题“748工程”列为国家重点工程,研制汉字精密照排系统和汉字情报检索系统。20世纪70年代末到 80 年代初,我国在汉字基本属性、编码和存储、输入与输出设备和汉字应用系统等方面的研究取得了迅速的进展。尤其是激光精密照排系统已达到世界领先水平,微型机汉字信息处理技术进入了实用阶段,使我国计算机应用的深度和广度都向前迈进了一大步。 汉字的信息处理首先要求把汉字输人电子计算机。这一输入遇到了很大的困难。因为电子计算机是西方人发明的,应该说就是为了西文的处理而产生的。而西文,如电子计算机的创始国美国和英国使用的英文与汉字有较大的不同。 这种不同主要表现在汉字是一种独特的“方块字”上,这种方块字更接近于原始“绘画文字”的形态,它是由点、撇、横等各种“笔画”在平面上组合而成的,笔画在平面上的位置有重要的意义,同一笔画放在不同的位置上就组成不同的字,汉字的笔画间必须断开,“一笔画”写不出汉字(个别的除外),因此,只有在一个“面”上才能识别汉字。而拼音文字(如英文)则不然,其字母是可以“一笔画”写出的(个别的除外),因此在“线”上就能识别。此外,汉字的字型不变和具有表意性也是与拼音文字不同的。汉字还有一字多音和一音多字,一字多义和一义多字的特点,也是拼音文字所没有的。这为向适于输入、处理拼音文字的电子计算机输入汉字带来了困难。 要想把汉字输入适于输入英文的电子计算机,就要把汉字向西文字母或数字组合转化(这里指印度一阿拉伯数字,它们的输入也早已解决了)。这是什么原因呢?这是因为,在电子计算机中,机器所能识别的只有两种状态(最基本的如接通电路和断开电路),我们可用二进制数1和0来表示与此相对应的计算机能执行的机器“语言”,一种不断接通和断开的脉冲电流,就可以用1和0的序列来表示,因此,人们就把用1和0的序列的表述称为机器语言。最初的计算机使用人员的确就用这种机器语言为计算机编制程序。这是十分困难的工作。 为了更有效地编制程序,人们发明了程序设计语言,这样源程序就可以用这种语言编写——它们用英文字母和十进阿拉伯数字,而利用一种编译程序使机器能自动地把英文字母和十进制数字转变成机器语言,即0和1的序列,再由机器执行。为了快速输入英文字母、十进制数字和少量标点符号和运算符号,人们发明了“键盘”,前述每一个字母、符号设一个“键”,按键就输入了相应的字母或符号。 这一过程是这样的:按下表示某个字母的键,存入机内的编译程序立即把它译成机器语言——二进制代码,如 A: 1000001 B: 1000010 C: 1000011 1: 0110001 2: 0110010 3: 0110011 那么为什么不设计适合汉字输入的编译语言呢?难就难在“方块字”上。作为一种拼音文字,英语只有26个字母,加上数字、标点、符号等等,有50余个基本键位就足够了,就是说,只要设定这50余个“字”与二进制代码的关系,就可以把所有用英文字母编成的源程序变成机器语言,或把英文写成的任何文件输入机器进行处理。 汉字的“方块”却不是由简单的字母构成的(这是拼音文字的特点),它有6万多个字,从
原创力文档


文档评论(0)