- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
汉语编码文字——输入码与内码一致的汉字编码
范显镔
我们现在所使用的汉字编码,输入码与内码是不一样的。输入码是用字符串
表示汉字,而内码是用长度为两个字节或两个以上字节的二进制数表示汉字。内
码不包含对应汉字的声、韵、调、义诸信息。人们无法根据内码的值去联系一个
汉字,即内码无可读性。这一点与拼音文字在计算机上的应用很不相同。使用拼
音文字的人们,他们没有什么输入码和内码,或者说,他们熟悉的文字就是输入
码也是内码,根据内码就能理解文字所表达的含义。因此在文字的输入、输出、
存储、传输、排序、检索等文字信息处理各个方面都比我们方便,这点难道不值
得我们借鉴吗?
汉字信息输入计算机必须使用汉字编码。那么我们为什么不使用输入码与内
码一致的编码,并且在输入码中包含汉字的声、韵、调、义,直接输入计算机中
作为内码而代表汉语呢?如果这样做了,我们一方面仍可在需要时将内码变换成
汉字输出,另一方面也可根据内码字符串直接理解文字所表达的含义。这时内码
可以认为是一种描述汉语的拼音表意的文字,以后叫汉语编码文字。汉语编码文
字与汉字在我国并行使用,文字信息处理的效率就不再是被远远地抛在西方国家
的后面,而是在不久的将来赶上并超过他们。
以前人们将人类的文字分为两大体系。
一个是表音体系。例如欧美的拼音文字。文字由几十个字母排列组合而成,
字母只表音不表意。单个字母结构简单,笔画少。
另一个是表意体系。这种体系使用许多形状特殊的符号叫做字。由一个或几
个字组成一个词,由词组成语句。字符间接地与它所表达的概念关联,即文字不
通过语音独立地表达概念。文字系统庞杂,字数多,有些字结构复杂。笔画繁。
这种体系的例子就是汉字。
现在的问题是,能不能将属于表意体系的汉字按一定的规则变换成表音体系
的字母文字输入计算机,输出时再还原为汉字?这本来是汉字编码的初衷。可惜
问题的答案是否定的。原因是汉字中有许多同音异形字。这些字变换后都成了相
同的字符串,只保留原汉字的音的信息而丢失了原汉字的与字形相关联的字义信
息,因此无法还原为汉字。现有的汉字编码输入法是启动特制的输入程序,根据
56
输入码显示一个汉字要求用户确认,在有重码时显示多个汉字要求用户选择。用
户在输入过程中紧张地现场观察与现场分析,再用键击‘翻页’或‘选择码’的
办法补充必要的信息,帮助输入程序确定要输入的汉字。然后查表找出和这个汉
字对应的一个特定的二进制数送入内存,这个数就叫内码。这种办法虽然也能实
现汉字的输入输出,但内码变得不可读,又增加了许多不规范的手工操作,降低
了效率,造成上千种汉字输入码,七、八种汉字内码在中国混用三十余年得不到
统一的不利局面。
如果我们突破上述文字分为两大体系的观念的束缚,这样提出问题,能不能
将属于表意体系的汉字按一定的规则变换成拼音表意的字母文字输入计算机,输
出时再还原为汉字?答案就是肯定的。这种字母文字在计算机中代表汉语,因此
叫汉语编码文字。它不属表音体系,也不属表意体系,可以说它是又表音又表意
的第三体系。怎么证明汉语编码文字是存在的呢?只要实际构造出这样的编码文
字就行了。
假如我们将汉字‘妈’变换成字符串‘maa’,则记为:妈→maa
叫做一个变换式。对所有的汉字都设计一条变换式,并且规则右部要符合拼音原
理又互不相同,则所有变换式的集合就叫做一个编码。用它做汉字输入时,变换
式右部是输入码又是内码,这种内码可在计算机中作为一种文字使用,所以又叫
汉语编码文字。
对上万个汉字都设计一条变换式并做到符合拼音标调规律、无重码、拼式又
要尽量的短,是一件十分艰苦复杂的事。但当代汉语语音学、计算机科学、信息
论、编码论等学科的发展已经为汉语编码文字的产生创造了条件,经过十多年的
努力,我已经完成了一种叫作拼音表意码的汉语编码文字。拼音表意码变换式右
部的结构有如下述。
一般一个汉字的目的字符串由三个字母组成,分别表示该汉字的声、韵、调
(义)。第一个字母叫声位字母表示‘声’。如‘妈’的声位字母是m。声位字母
的发音与《汉语拼音方案》大部分相同,只有3个字母做了重新规定,它们是:
v 在声位读 [zh](知),如 知→vic
w 在声位读 [ch](吃),如 吃→wia
y 在声位读 [sh](诗)
文档评论(0)