在通用字符集中藏文编码模式研究与应用.docVIP

下载本文档

10
0
约5.11千字
约 12页
2018-08-27 发布于福建
举报
版权申诉

在通用字符集中藏文编码模式研究与应用.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

在通用字符集中藏文编码模式研究与应用

在通用字符集中藏文编码模式研究与应用　　摘要：藏文软件开发者在现代计算机系统中处理藏文数据时必须所具备的知识之一是藏文在通用字符集(UniversalCharacter Set，Ucs)中是如何进行编码。在设计藏文网页内容时UCS藏文数据的整理、设计藏文应用软件时藏文文本的处理操作或者在设计藏文OpenType或AAT字库时、UCS藏文编码模式应用等都要首先去理解UCS藏文编码模式。因此，理解和掌握UCS藏文编码模式是软件制作商首选目标。详细介绍了UCS藏文编码模式的组织结构和设计方法，以便于使用OpenType来支持复杂藏文文本的显示。　　关键字：计算机应用；中文信息处理；UCS；藏文编码；组合；排序；重排　　中图分类号：TP391　文献标识码：A 　　　　1　引言　　　　为推动藏语文规范化、标准化和信息处理现代化，弘扬藏族优秀文化，使藏语文适应现代信息技术的发展需要，在国家有关部门的大力支持和帮助下，西藏从1993年开始开展了藏文信息技术标准化工作，着手起草和制定藏文编码国际标准和国内标准的方案。藏文编码国际标准最终方案于1997年获得国际标准组织顺利通过，使藏文在中国少数民族文字中成为第一个具有国际标准的文字。这为藏语文步入现代信息媒体领域，在网络媒体中实现信息处理和交换，建立了良好的基础。但由于藏语言本身的特点，其处理方法不同于拉丁文字、汉字的处理方法更复杂，这给开发藏文版本的软件带来了很大的困难。当前国内所使用的藏文软件，几乎都支持国际编码标准――ISO/IEC 10646中藏文编码字符集国际标准(基本集)，因此结合藏文本身的基本结构，正确理解其编码结构是一项非常重要的基础概念。　　　　2　藏文具备了作为一种复杂文本语言的基本特征　　　　藏文可以被视为基本字符和基本字符通过纵向叠加而成的字符串，构成一个完整藏文词素的基本单位是由藏文中的“音节分割符tsheg bar”来确定。一个藏文词由一个或多个音节构成。每一个音节包含着“基字(Root letter)(Ming gzhi)”和可能跟随的如前加字(Prefix)、上加字(Head letter)、元音符号(Vowel)、后加字(Suffix)、再后加字(Post suffix)。音节，通常是由音节分割符tsheg bar或者其他标点符号来划分的。图1给出了一个藏文字的各组成构律。　　　　在ISO 10646／Unicode标准编码中，像拉丁语、汉语，它们文字的显现形式与ISO 10646／Unicode中编码字符是一一对应的，即字符(Character)与它的显现字型(Glyph)是一一对应的，而且显示的顺序和在内存中存放的顺序是一样的，但藏文却有着比这更复杂的特性，即一个藏文字符则需要用几个编码来表示，长度不定，给藏文在信息系统的实现带来极大的麻烦。具体而言，藏文有如下一些特性：　　(1)字符置位性：虽然藏文书写方向是从左向右，但是在一个藏文文本中纵向叠加的辅音加上元音的组合字是经常存在和使用的。然而，无论是两个相邻的字符将要纵向地堆叠或者从左到右形式地拼写，后一个字符不能简单地由上下文或语法规则来确定。不管是什么文字，在计算机中，Unicode字符串都是以逻辑顺序存储的，即它们的存储方向都是从左到右。在处理多语言文字的Unicode字符串时，系统就必须识别出各种文字的方向。　　(2)与上下文内容相关的显现形式：字符在词的不同位置有着不同的显现形式，如藏文字0F62在作为藏文的基字和上加字时有不同的显现形式。这里引出了两个概念：名义字符及其变形显现形式，名义字符指在Unicode中已编码的字符；变形显现形式指在语义上还是那个字符，但它却有着和那个字符完全不同的显现形式，它们在Unicode中没有码位、没有编码。　　　　3　ISO／IEC 10646和Unicode国际标准中藏文的编码模式及应用　　　　藏文由于叠加字符的各构件变形和跨度都较大，特别是叠加层数较多的字符，各字母在不同层的高度和宽度都有不同的要求，因此，藏文字符的纵向叠加是藏文信息处理的一大难点。正因为如此，在UCS藏文编码中所使用的编码模式是一个基于藏文正字法或字布局而不是基于藏文语法规则的确切的叠加模式。　　　　3．1　藏文辅音和组合用辅音字符　　藏文编码中被采纳的编码模式是～个基于藏文正字法或字布局而不是基于藏文语法规则的确切的叠加模式。在UCS中安排了两个完整的辅音集合：一个是从UOF40到UOF69的主辅音字符，被用于单一的辅音或者是任何的组合叠加中出现在最上层位置的辅音字符，即藏文的最基本辅音字符和六个来自印度文的预组合好的辅音字符。另一个是从UOF90到UOFBC的组合用辅音字符，用于在叠加时出现的附加