- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
中文域名及中文繁简问题研究
中文域名及中文繁简问题研究 计算机网络资源名称是用来表示网络资源的,而采用中文字符来表示计算机网络资源,就涉及到中文用户的认知问题和使用习惯问题,中文字符的繁简等效就是其中的重要问题之一。当然中文字符繁简等效只是异体等效问题中的一种,但是却是最为重要的一种,因为异体等效中大部分都是简繁体的等效。 中文域名异体等效是中文域名系统设计中最为核心和关键的也是最难解决的需求。我们知道英文字母也具有大小写的区别,在Unix文件系统中,大小写通常是敏感的(case sensitive),而在DNS系统中大小写是不敏感的(case insensitive),即大小写等价,而且在IDN系统标准中已经规定直接将大写字符映射成为小写字母,直接按照Unicode标准做Case Folding。英文字母只有26个,而且大小写的关系是一一对应的关系,无论是直接做映射还是做其他类型的等效处理都是比较容易实现的,然而中文异体字符的等效问题则比英文大小写问题复杂多了。 首先,仅Unicode基本平面I-Zone包括的中文字符就已经超过两万个,在Extension A中还有数万字,根据简化字总表,其中仅具有简繁体异体关系的中文字符就超过了2300多组,还不包括其他未收录的简繁体和异体关系。 再者,而且也是最为重要的,他们之间的异体关系不仅是一一对应的关系,还有一对多,一代多和多对多的关系,十分复杂,即使采用人工智能的方式,简繁体转换的结果也不能保证百分白的正确,因此在DNS系统中试图模仿英文大小写的解决方案来解决中文字符的异体等效问题是不现实的。 现行国际标准的DNS系统是基于ASCII编码的,对于英文世界的人来讲是足够了。但是,世界上多数用户使用的编码都不是仅仅局限于七位ASCII编码,随着网络使用的普及,作为网络世界入口的域名也给网络的普及带来了不利的方面,一个方面是英文不易于记忆,另一方面英文不能确切标识拥有者所想要的含义。这样,用户迫切希望可以用本国语言来标识域名。但是,用户不能任意选择自己想要的编码,因为世界上几乎任何一种常用语言都有它自己的本地编码,那样就不能保证DNS名字空间的一致性,因此IETF国际化域名工作组选定的编码标准是Unicode。Unicode几乎包含了当前世界上所有的字符,它不区分国家本地编码,仅以字形来区分,比如中日韩越等国共同使用着汉字,Unicode就收录了所有的字体形式,然后进行编码,通称为CJKV。然而由于选择了Unicode,就无法区分各国文字,但是我们知道,将国际化的文字引入DNS,就意味着将文字本身的特点也同时引入DNS体系,而Unicode CJK码位统一导致了中文本身特性的消除,从而引起了一些处理上的问题。比如,对于国际化域名的最大子集——中文域名而言,处理中文域名的繁简等效就变得非常困难。 从语言学的角度来讲,中文并不区分人群和地域,但是其书写方式确并不统一,比如中国大陆和新加坡采用简体中文书写方式,而港澳台以及大多数海外华人则使用繁体中文书写方式。 那么首先什么是简体中文和繁体中文呢?通常我们说的简体中文是指满足以下三个条件:字形采用简体字型书写,无繁简差别的除外;字符集通常使用国标码字符集,或其扩充版本,国家标准扩展码(GBK)等由中国大陆政府正式颁发的字符集;词语用法通常为中国大陆的用法。繁体中文是指满足以下三个条件:字形采用繁体形式书写,即使具有常用简体形式,而官方用法仍然保持繁体书写;字符集通常使用BIG5编码,以及台湾官方发布的CNS14649,而词语的用法通常采用台湾、香港或者澳门的用法。 语言是交流的工具。如果语言是统一的语言,而书写方式是两种书写方式,那么就必然存在着同一语言中不同书写方式的转换或者对应的问题,这就是简繁体等效问题的来源。多数情况下,人们把这个问题称为简繁体转换而不是简繁体等效,但是事实上很多情况下由于一些策略或者技术上的原因,是不可以直接做转换处理的,这个问题更多的是指如何处理其中的等效关系,而不是将一方转换到另一方,某种意义上讲,转换意味着一种书写方式的消失,因此,这种说法是不确切的,本文采用简繁体等效这种概念。 现在处理繁简转换的工具比较多,已有的研究也比较多,但是这些研究以及设计的工具进行的多数是不同字符集之间的转换。因为最初大陆广泛使用的是GB2312编码字符集,主要收录了简体汉字,共计6763个;港澳台使用的是BIG5字符集,主要收录了繁体汉字,共计13068个,多数中文繁简转换的处理主要是做不同字符集之间的转换,而不是做不同繁简字型之间的转换或者等效处理。但是,事实上中文的简繁体等效或者异体等效问题远远不是不同字符集之间转换那么简单,而且也不是同一个概念。比如现有中国大陆
原创力文档


文档评论(0)