- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
搭建中华全字符集大平台-COLIPS
第二届肯特岗国际汉语语言学圆桌会议论文
2002年11月26-29日·新加坡
搭建中华全字符集大平台
中华人民共和国国家教育部语言文字信息管理司 李宇明
〖内容提要〗 为使中华文献有一个可进行文字加工的永久性本面目保存本,为满足数字化图书馆、博物馆、档案馆的建设,为促进用于知识发掘数据库的建设,为保证中华文化信息在国际互联网上的无障碍交际,必须尽快构建中华全字符集。本文主要讨论中华全字符集的内容及需要解决的技术问题。
20世纪是人类科技大踏步前进的世纪,计算机和国际互联网,应该是20世纪人类最重要的发明,特别是国际互联网,给人类构造了一个全新的虚拟空间,展示了信息时代的光辉前景。但是,计算机和国际互联网的出现,也在全世界范围内形成了巨大的“数字鸿沟”,带来了各种新的国际性社会问题。现代国家在制定语言文字规划之时,不能不考虑计算机的语言文字处理问题,不能不考虑网络上的语言文字交际问题,不能不考虑怎么样通过语言文字的信息化来缩小数字鸿沟的问题。
本文在此时代背景中讨论中华全字符集的内涵、建立中华全字符集的意义、需要解决的技术问题等等,希望引起大家对这一关系到中华文化在信息时代发展的宏大事业的关注和支持。
一、中国汉字处理的简单回顾
在讨论中华全字符集之前,先回顾一下中国汉字信息处理的大致情况,提出还需解决的问题。
20世纪50年代,中国就有先行者开始研究俄汉机器自动翻译问题,并采用当时的电报码或四角号码充当汉字编码。70年代,汉字的计算机处理问题开始受到重视,键盘编码、汉字的点阵描述和输出等,成为当时的“必战之役”。80年代中期,国家站在时代前沿,正式把语言文字的信息处理纳入国家语言文字工作的重要内容。在1986年1月召开的全国语言文字工作会议上就提出:“汉语汉字的信息处理是一门新兴的边缘学科,有广阔的前景,加强这方面的研究,对经济、文化、科学技术的发展具有长远的意义。因此,当前语言文字工作的任务必须包括这项内容。”
但就计算机汉字处理而言,近30年来获得了重大成就:陆续开发的汉字键盘输入方法,解决了汉字进入计算机的难题;汉字输出实现了多字体、多字号;汉字库制作也由点阵字库、矢量字库逐步过渡到曲线轮廓字库;汉字自动识别技术达到国际先进水平,并有商品投入市场;ISO/IEC10646的CJK字符集,由早期的6763个通用汉字逐步扩充,扩充集A和扩充集B已经完成,现在正讨论扩充集C1,待扩充集C1完成后,编码汉字已逾7万。这些成就,促进了中国计算机的普及,为发展计算机应用技术和信息化创造了基本条件。
但在计算机汉字处理方面,还存在一些需要解决的问题。例如:
1.“万码奔腾”的局面,令许多业内人士感到担忧。随着计算机语言处理由“字词”向语言理解的深度进展,当前提高键盘输入的质量,已不仅是取决于编码的本身,而主要取决于与语言理解有关的各种资源的建设,如语料库的深度开发,各种电子词典,语法典的编纂等。用这些资源支持键盘输入,才能使键盘输入出现跨越式的发展。
2.怎样进一步提高汉字识别质量,特别是脱机手写体识别的突破。
3.语音与文字的自动转换,包括语音输入的文字显示和文字的语音输出,应用前景广阔,但是还存在着较多的技术难题,需要重点攻关。汉字与汉语拼音、国际音标等的自动转换,汉字与汉语拼音的自动互注等问题,在技术上虽然难度不大,但并没有引起信息处理界的重视。
4.简繁体的自动转换还没有完全实现自动化,特别是由简体向繁体的转换,需要较多的人工干预。
5.异体字之间的关联亟待实现。
6.宋体、仿宋体、楷体、黑体这四种常用印刷字体的字形标准应扩展到更大范围,而且还应建立其他字体的规范或规范原则,建立低点阵字形的省减规范。此外,还应研究手写体及书法艺术的计算机表现问题
二、中华全字符集及其意义
文化是人类文明的积淀,是人类生活的底蕴。文化的传承与开发,是人类生存与发展的重要方面。以计算机和互联网为基本技术支撑的信息时代,文化的传承与开发更加重要,并且开始应用数字化的新手段。中华文化是由多民族文化构成的源远流长的灿烂文化,在世界文化发展史上具有不可代替的重要性。促进中华文化在信息时代发挥更为重大的作用,是我们的历史责任。
承载中华文化的文字与符号的总和,称为“中华全字符集”。中华全字符集大致包含如下九个方面的内容:
1.汉字隶变之后的记录主流文化的今汉字,包括简体字、繁体字和历史上的传承字等。
2.方俗汉字,包括汉语方言用字、古今民间使用的俗字以及碑别字、错讹字等。
3.古汉字,包括甲骨文、钟鼎文、战国文字、简帛玺印、小篆及汉字隶变之前的其他文字。
4.汉字系的古今少数民族文字,如古壮文、西夏文、契丹大小字等。
5.古今少数民族非汉字系的表意文字,如纳西文字等。
6.古今少数民族的表音文字,如蒙文、藏文、维吾尔文、哈萨克文、朝鲜文
文档评论(0)