蒙古文文献数字化建设与OpenType字库的优化.docVIP

蒙古文文献数字化建设与OpenType字库的优化.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
蒙古文文献数字化建设与OpenType字库的优化-大学语文论文 蒙古文文献数字化建设与OpenType字库的优化 ○ 宝美荣 (内蒙古师范大学 图书馆,内蒙古呼和浩特010022) [摘要]本文主要根据蒙古文文献数字化建设、检索、共享等方面阐述了蒙古文OpenType字库的重要性。详细分析了win7系统下的蒙古文OpenType字库规则,发现一些规则没有遵循蒙古文语法规则,导致控制符使用繁杂。为普通用户输入蒙古文带来不必要的复杂性。本文以蒙古文的语法和书写规则为依据,按照不用控制符或尽量少用控制符原则对字库规则进行优化,提出了对蒙古文字库规则的修正方法,实验表明达到了预期效果。 [ 关键词 ]数字化;共享;OpenType字库;规则 [中图分类号]G112[文献标识码]A[文章编号]1672-8610(2014)05-0066-03 利用现代信息技术进行民族文献的数字化对极其宝贵的民族文献资料保存并有效利用、广泛传播等具有深远的意义。 中国蒙古文现代图书近3万种,期刊150多种,古籍1.5万种,收藏蒙古文文献的各级图书馆400多家,所以蒙古文图书文献资源丰富且地域分布广。所以建立统一的蒙古文文献数字化共建、共享平台是非常有必要。随着软件硬件技术的不断发展对文献数字化建设提供了良好的环境和平台。因此蒙古文文献的数字化工作越来越受到人们的重视。 一、蒙古文文献数字化中的共享、检索问题 从技术层面分析,目前各高校图书馆使用的蒙古文文献管理系统不尽相同,如汇文、金盘等。而且各个系统之间不兼容,导致对资源的共享带来很大的困难。而文献数字化的最终目的是资源的广泛共享。实现共享要需要统一的文献管理平台。其根本的统一在于蒙古文编码。由于蒙古文编码国际标准制定较晚(2002年)导致多种编码(形码、音码等)并存,编码不统一,对资源共享带来一定的障碍。 从语言本身分析,蒙古文是一种复杂的拼音文字。也是唯一从左到右、从上到下竖排的文字。这个特点对文字处理技术带来了一定的难度。除此之外,蒙古文中存在一音多形、一形多音等现象,因普通用户很难100%正确掌握,文字录入过程中难免会出错,所以会影响检索效率。 从编码角度分析,自从蒙古文编码国际标准制定之后大部分蒙古文信息处理系统都遵循国际标准编码。微软从vista系统开始支持基于OpenType蒙古文字库的传统蒙古文输入法。这对蒙古文文献数字化提供了统一编码的良好平台。 但是,这套OpenType字库中一些规则没有遵循蒙古文语法规则,导致控制符使用繁杂,加大了用户输入蒙古文时的不必要的复杂性。所以文本重点分析了蒙古文OpenType字库中存在的问题并提出了优化方案。 二、基于Unicode编码的蒙古文OpenType字库 蒙古文编码国际标准由有码位的“名义字符”和无码位的“变形显现字符”两部分构成。所以显示正确的蒙古文文字时必须考虑到名义字符和变形显现字符之间的映射。而这种映射关系应该用语言知识和语法规则体现出来,从而达到正确选形的目的。对于语言知识和语法规则无法区分的情况,通过输入附加控制符来标识。OpenType字库技术恰好可以解决此问题,字库设计者主要利用OpenType布局(Layout)表设置布局规则,体现名义字符和显现字符之间的映射关系。蒙古文OpenType字库主要涉及布局表中的字形替换(GSUB)表。 为了支持蒙古族、藏族、维吾尔族等复杂的少数民族语言文字,微软在Vista及Win7系统中设计实现了一套完全符合Unicode编码标准的蒙古文OpenType字库(蒙古文白体)并附带了蒙古文读音输入法,基本能满足蒙古文输入的需要。 输入蒙古文时如果频繁使用控制符会给普通用户带来不必要的困难。如蒙古文控制符种类多、用法繁杂难于记忆;发音不标准的用户会输入显现字符正确而编码错误的信息;在编辑操作及网络传输过程中控制符会发生失去控制能力、控制符丢失等现象而导致显现字符不正确。因此,从名义字符到变形显现字符的转换规则应当尽可能利用蒙古文的拼写规则与语法规则,只有在拼写规则、语法规则无法区分的情况才使用控制符来标识。即应该按照“不用控制符”或“尽量少用控制符”的原则来建立字库布局规则。从而减少控制字符带来的副作用,使蒙古文读音输入更加便捷。 三、微软蒙古文OpenType字库布局规则中存在的问题及优化 在蒙古文编码国际标准中定义了蒙古文所需的特殊控制字符如表1示: 这些控制字符主要用在蒙古文字符前后来一起确定字符的正确变体。 微软蒙古文Opentype字库中主要存在的问题是辅音GA与HA的变体选形规则不完备。 该布局规则没有完全遵循元音谐律及辅音谐律语法,导致一些词必须附加控制符才能正确输入(选形),主要体现在

文档评论(0)

beoes + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档