汉语信息编码方法.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
汉语信息编码方法

汉语信息编码方法 从广义上讲,人类语言的文字符号就是对人类语言的视觉编码符号。文字编码的概 念,是随人类信息化社会的来临而形成的。可以理解,电脑的最初诞生是以英语为背景 的,英语的文字符号就是 26 个拉丁字母,其他非拉丁字母的文字符号要适应当代电脑, 就必须直接或间接的“拉丁化”,才能直接使用电脑的国际标准键盘模式的输入。这样 的过程,就是非拉丁字母文字的实用方式,也就是对非拉丁字母文字实现编码输入。 一、什么是汉语信息编码 世界上没有没有语言的民族,可是却有没有文字的语言。可见,人类的语言和人类 的文字是不同的两回事,但彼此之间也有着割不断的联系语言是主体,文字是依附。 汉字是记录汉语(包括诸方言)的一种文字体系,也是灿烂的中华古代文化的一部分,对 推动整个中华民族的历史有着不可磨灭的功绩。但是汉字要适应和适合现在信息媒体, 最简单的方法就是编码替代。汉字的编码,已经为世人所理解,也能有广泛的社会效益。 但是,因为汉字特征的复杂性,使得人们根据这些特征或个人的理解,可以设计出不同 的汉字编码,导致了当前汉字编码众多,人们无所适从的尴尬局面。 华文汉语信息编码是一种对汉语语言信息本身进行编码(语音信息,语法信息,语 义信息)的超级编码体系。它与文字符号的功能有些相似,因此这个系统完全可以不依 赖于汉字符号而表达出汉语信息,即人们可以直接“读懂”这样的编码来表示的汉语意 思。 现代汉语的文字符号还不是当代及未来人类社会中流行的字母符号体系,而是表意 的汉字,使得汉语语言本身被完全而真实地融入现代信息媒体的现实状况不尽人意。在 当前汉语语文现实的历史背景下,为了比较完美地解决汉语语言信息在现代和未来人类 信息媒体中的流通和传递,提出了“汉语信息编码”的概念。它不等同于现在的“汉字 编码”,只为汉字本身服务,而“汉语信息编码”是为现代规范汉语语言本身服务的一 种信息处理技术,其根本目的是让现代汉语语言信息——语音信息、语义信息和语法信 息能在现代人类信息媒体中体现出来,满足人们在当代信息媒体——计算机及其网络、 现代通讯媒体等方面对汉语语言信息的需要。汉语信息编码还不等于“文字”,因为它 还没有正式公布一套完整的构词法、证词法和造句法体系等文字系统所必备的要素。汉 语信息编码只是不依赖于汉字而依赖于汉语词语的语言学信息对汉语的词语所做的编 码。 “汉语信息编码”的基本设计思想是针对以汉语语言学和汉语词典理论为指导,对现 代汉语信息(语音信息,语义信息和语法信息)实行拉丁化的字母编码,从而能在现代媒 体中全面地完成汉语信息的交际与传递。“汉语信息编码”的发展方向是:在现代信息媒 体中实现规范人们汉语汉字词汇的录入与运用;建立规范的现代汉语词汇信息库;成为 电脑多语言机器翻译的中间媒介等多方位的现代信息交际与交流。所以,“汉语信息编 码”是解决汉语本身在现代信息媒体中的诸种问题的一览子中间方案。 如何处理汉语的最小语音单位(即大多数情况下,由一个汉字所表达的语言意义)在 信息编码中的形式,是所设计的汉语信息编码能否合理,实用的关键所在。然后,就是 信息编码的词汇单位,语法的表达形式(可称为“语法视觉符号”),古语成分,外来语 (必要时还要考虑方言)等。在信息编码的框架上,要同时考虑两大原则:一是既要以科 学性为主导,又要有极大的实用性。过分地注重科学性,会编码体系理想化,抽象化和 复杂化,从而使设计出的信息编码失去了实用的价值而难以被社会所接受。二是既要充 分体现汉语的特色,又要顾及汉语信息编码的形式与的国际上各大信息编码的书写习惯 有相似之处,以利于汉语信息的国际交流。过分强调汉语的民族特点(或“中国特色”), 无疑,不利于汉语进一步融入国际信息社会,也无助于扩大汉语在世界上的威望。 由于我们所需要的汉语信息编码是记录语言本身的码元符号体系,是语言信息的 “衣服”,这件“衣服”的腰围与袖筒不能做得一样大。这就是说,所设计的信息编码 还必须跟语言的实际状态相吻合。汉语跟其他民族所用的语言一样,是一种自然语言(不 是世界语那样的人造语言),其内部结构(语义,语音,语法及其彼此的配合关系)并不 是理想化的,所以,对自然语言设计出的信息编码也不可能是理想化的,设计一个好的 汉语信息编码要比设计一个好的汉语汉字编码困难得多,复杂得多。 汉语信息编码的两个突出优点:一是方便不懂汉字的人学习汉语汉字;二与汉字无 关的汉语输入,广义的汉语语言信息编码还包括对汉语的语法信息进行系统编码,这里 所说的汉语信息编码,是指一般意义上的信息编码,即对汉字词语所代表的汉语信息进

文档评论(0)

shaofang00 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档