- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
藏文国际编码的发展与技术应用
昊 兵 江 获
[摘要]藏文编码过程中一直存在两种完全不同又可互补的观念,即组合观念和预组合观念。前者以ISO/IEC
10646~一l:1993、Umc~e或GB—l6959—1997(《信.&技术一信息交换用藏文编码字符集一基本集》)以及其应用方
案 SystemofMicrosoftHimalaya和TheMicrosoftTibetanKeyboard为代表,后者以GB/T20542—2006(《信息技
术一藏文编码字符集一扩充集A》)以及应用系统“d匕大方正藏文书报版系统”为代表。就编码修订和增补来看,
随着OpenType等新技术应用,组合编码方案更具简洁性、无遗漏涵盖等特点,发展前景广阔。本文以微观方式梳
理出藏文编码产生、修订和发展的复杂过程,分析了藏文编码的技术布局、编码细节及技术应用情况。
[关键词】藏文;编码;藏文扩A;藏文扩B;Unicode
中图分类号:C955 文献标识码:A 文章编号:1004--3926(2011)08—Oo46—O6
作者简介:吴兵(1972一).男,四川泸定人,上海师范大学博士研究生,西南民族大学计算机科学与技术学院副教授,
研究方向:自然语言处理。四川成都 610041 江荻(1954一),男,山西定襄人,中国社科院民族学研究所研究员,语音与
计算语言学研究室副主任,博导,研究方向:汉藏语言学、现代藏语语法及计算语言学。北京 100081
藏文中国国家标准于1998年1月1日正式发 1028),(e,1029),(0,102A)连续编码,另两个是
布,迄今已有 l3个年头。藏文国家标准是在 ISO/ 复合元音:各(ai,103D),(an,103E);数字符号 10
IEC国际标准基础上制定的,并随着 Unicode和 个,从O(100o)至9(1009)连续编码。余下的是标
ISO/IEC的持续发展而不断完善。本文在理清藏 点符号与读音辅助符号,例如,表示左右括号厂(左
文编码技术的发展历程中,针对藏文软件发展状 半符,103C),、(右半符,102F);表示句终或停顿符 {
况分析,意图找出藏文编码的发展趋向和应用前 (单垂符,1034);表示语音变读的0(随音点,102C),
景,以资感兴趣者共同探讨或把握。 3(涅槊点,102E),(无韵辅音符,104B) ,(弱读
一 符,104C)。当时的命名也有一些不规范之处,相当
. 、藏文编码的创制
部分采用口语读音而非正字,例如 100C命名描述
藏文走入计算机,走向信息化一直是人们梦寐 为tsatru,正字应该是tsaphru。再如,表示强调的
以求的愿望。20世纪80年代,设计出数码代字等 符号ngezunggorta,正字应该是 ngasbzungsgor
藏文计算机处理方案 (于道泉,1982),自创点阵型 rtags,功能描述也应清楚表述,该版表述为 “下画圈
藏文字符(张连生,1983),开始了藏文信息化之路。 underring)”。
藏文国际标准编码的起步是从国际统一编码 与此同时,国际标准化组织开始制定全球性标
联盟(TheUnicodeConsortium)1991年 1O月发布 准,其中ISO/IEC10646—1这个版本在组织内部不
Unicod~1.0开始的,当时收入藏文字符71个。这 断修订。由于这两个国际组织明白世界并不需要
些字符未按现在的体系编码,部分命名和功能描 两个不同标准,它们 自愿走到一起来,统一标准。
述也不准确。 因此统一编码修订第1.1版(1993.6)时,出现一个
Unicode1.0的编码从u+1000开始,第一个字 戏剧性的景况,所有藏文字符全部
文档评论(0)