- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
I第四届全国语言文字应用学术研讨会论文集
国际基本子集的诞生及其构成概况
王晓明王敏
(教育部语言文字应用研究所北京100010)
一、背景知识
ISO/IEC10646是一个集世界上所有文种于一身的国际编码
标准,它打破了简、繁、异体汉字在标准中相互分离的历史,第
一次将汉字系的字符融为一体。该标准不但使简、繁、异体汉字
并存,也使得日文汉字、朝文(韩文)汉字、越南汉字融为一体。
该标准自1989年开始制定以来,先后已经颁布了三个版本,
统一汉字20902个,不但使汉字第一次在国际标准中有了正式
地位,而且在编码空间争夺十分激烈的情况下,这两万多汉字就
占用了已释放编码空间的一半之多,超过了其他文种字符编码的
总和。这个字量已远远超过《现代汉语通用字表》的7000字和
信息交换用的国家标准GB2312的6763字,同时,也体现了汉
字在这一国际标准,乃至世界上的重要地位。2000年版新增加
484
了CJK统一汉字扩充集A,收入的CJK统一汉字总量达27
一汉字高达70195个。以上数据中还不包括在CJK统一汉字区
域以外编码的汉字。目前,仍有两万多汉字即将在该标准中正式
46..
国际基本子集的诞生及其构成概况|.K
编码。如此之多的编码汉字,如何有效地用于信息处理,也是一
个值得研究的新课题。
二、国际基本子集的构想与诞生
当今世界正处在网络化、数字化的新时代,随着数字化的不
断深入,诸如数字图书馆的建立、古籍电子化、资源信息网络化
等对编码汉字的需求量在不断增加。为了满足这一需求,国际标
准一直在不断地增加编码汉字的数量,2万字、3万字、7万字、
9万字……随着编码汉字数量的与日俱增,中文电子出版物不断
涌现,中文网络资源及网络信息量迅速膨胀,这些都在一定程度
上促进了汉字文化的研究与传播。
由于该标准囊括的汉字量大,所涉及的语种多、地域广,它
在很大程度上满足了国际社会方方面面的用字需求。同时,作为
国际标准,它也为世界范围的中文信息交换构筑了一个便利的平
台。然而,由于编码汉字繁多,也给普通用户的日常使用带来了
不便。随着标准的不断扩展,这一矛盾还会日渐凸现。为了化解
这一矛盾,在2002年初,国际标准化组织汉字工作组的专家们
萌生了建立子集的想法。中国随即对此作出积极反应,2002年
10月,中国(含香港、澳门、台湾地区)的信息界、文字界专
家聚集福州,就这一议题进行广泛、深入的商讨,并联合向国际
标准化组织提交了构建国际基本子集的建议。
建议明确指出,国际标准ISO/IEC
汉字已逾七万,而在日常使用中,如此大规模的汉字字符集并不
适用,需要指明CJK汉字使用区日常社会生活中最常用的汉字,
建立基本子集。子集将满足CJK汉字的实现者和使用者的如下
需求:
(1)降低用户成本,为用户提供便利,满足最基本的使用需
求;
l》第四届全国语言文字应用学术研讨会论文集
(2)在较为经济的基础上满足国际信息交流的共同需要;
(3)推动各个国家和地区采用国际标准。
中国(含香港、澳门、台湾地区)的联合提案得到了国际社
会的认可,后经过与日本、韩国、朝鲜等国专家的共同研究与磋
商,国际基本子集于2004年6月正式诞生。目前,国际标准化
组织已决定将其作为国际标准ISO/IEC10646的正式组成部分,
并将在下一个版本中正式公布。
建立国际基本子集是为了解决需求与使用之间的矛盾。对已
编码汉字根据其实际使用状况划分不同类别的子集势在必行,不
同的应用层面需要采用不同级别的子集。编码不是目的,使用才
是最终目标,一切服务于实际需要。
三、国际基本子集的构成及概况
国际基本子集是ISO/IEC
集A、B中那些在当代社会生活中最基本、最常用的汉字的集
合。研制“国际基本子集”遵循的基本原则是:反映当代社会生
活的基本用字需求;提交的字汇应基于各个国家和地区颁布的基
本字表(如果有的话);酌情考虑国家和地区特殊需要的汉字;
如有同音、同义的异体字,
文档评论(0)