- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一种以“字形簇”为单元的多文种文字处理方法
唐英敏1·2吕肖庆1,2高翔2张建国2
(1.北京大学计算机科学技术研究所北京100871;
2.方正集团IT软件事业部北京100085)
tangyingmin@icst.pku.edu.cn
摘要; 以往的排版软件通常都是以单个字符作为文字流的基本单元,在多文种文字处理中,由于各种语
言文字有着不同的特征和排版规则,基于单字符的排版使多文种处理变的非常复杂。本文提出了以“字形
10646、Unicode标
簇”为文字流基本单元的文字处理方法,该方法采用OtmnType技术。且符合ISO/IEC
准,可以系统地解决多文种混排面临的困难。
关键词;文字处理多文种字形簇Unicode
OpenType
1.引言
随着国际交流的不断增加和我国民族文字信息化技术的发展,对多文种文字处理技术的
需求越来越多。ISO/IEC
10646(或Unicode)统一了世界各种主要语文字符的编码,其目标
也是要统一全球所有字符的编码,因此采用ISO/IEC
10646能够避免多文种处理中不同语言
字符的重码问题。但是除了字符编码问题以外,因为各种语言文字的书写方式不同,文字处
理的方法也不同。例如,拉丁文和阿拉伯文的文字走向不同;蒙古文一般采用竖排;藏文是
横排,其字母却是纵向排列。这些不同的书写方式,使得以单个字符为文字流基本单元的文
字处理方法在处理多文种混排时变的非常复杂。本文结合OpenType技术,通过以“字形簇”
为文字流基本单元的文字处理方法,解决多文种文字处理在排版中遇到的问题。
2.目前多文种处理的方法及存在的问题
‘
2.1多文种处理技术的发展
实际上我国的文字处理技术从开始就不是单一文种,早期的排版软件都能同时处理汉字
和英文,当时使用的字符编码国家标准GB
2312.80中除了汉字外,还包含了拉丁字母、希腊
字母、俄文字母和日文假名等字符【l】。汉字正向横排(从左向右排)时与英文混排没有太多
问题,只是拆行时增加了英文拆行处理;竖排时一般是把英文旋转90度排列,这样文字走向
与汉字一致,显示的字符是横躺着的。
汉字的书写方式比较多,既有横排也有竖排,在台湾等使用繁体字的地区还经常用到反
向横排;同时我国又是一个多民族国家,各种民族语言几乎包含了世界上所有的书写和排列
方式,这些特点决定了我国文字处理工作的起点高、难度大,为以后的发展积累了丰富的经
验。由于技术条件的限制和统一标准的缺乏,使得早期的排版软件对一些特殊情况的处理变
的很复杂,其中主要的问题是处理字符变形显现和文字走向不一致的问题。
2.2字符的变形显现问题
在某些语言的文字中,同一字符因为不同的排版方式或在词句中的不同位置,会有不同
的表现形式,例如汉语中引号竖排时的字形与横排时不同,蒙文和维哈柯文的字母在词首、
词中和词尾有不同的显现字形。这些需要变形显现的字形有的在ISO/IEC10646中被赋予了
与原形不同的码位,有的则没有赋予独立的码位。
以往的排版软件由于受技术条件的限制,多数采用对不同字形分别赋以不同的编码,在
排版软件中通过编码转换实现变形技术(如方正书版9.x)。这样不仅增加了软件排版、检索等
功能的复杂度,同时由于各单位对变形显现字符的编码不统一,导致各家的字库和文字处理
系统互不兼容睇J。
2.3文字走向不一致问题
.-256.-
不同的语言书写方式不同,排版规则也不同。汉语适用的排版方式最多,既可以从左向
右横排(称为正向横排),还可以从右向左横排(称为反向横排)和竖排。其它语种一般都
只有一种排版方式,但不同语种的排版方式也不一样。如拉丁文是正向横排,维哈柯文是反
向横排,蒙古文是竖排,不同的语种混排时就会遇到文字走向不一致的问题。而藏文自身就
存在这个问题,藏文是正向横排的,但其字母组字时却是竖排的。
在
原创力文档


文档评论(0)