- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
中文数字化,勿以初级而不为 - 书同文汉字网
5Th CDF C-DigitizationSinceABC By UniHan
第五届两岸四地中文数字化论坛发言
中文数字化,勿以初级而不为
张轴材 北京书同文数字化技术有限公司
joe.zhang@
2007 年初第四届两岸四地中文数字化论坛(澳门)之后,我和我的团队,
在包括两岸四地在内的众多朋友的帮助下,在中文数字化特别是汉字数字化的几
个初级的、基础性的项目上做了一些工作。现汇报交流如下:
一、汉字基础项目
a) 中日韩常用汉字对比分析:该项目从汉字文化圈社会生活与教育界最常
用的汉字入手,选中国大陆的《现代汉语常用字表》、《HSK 汉语水平考
试字表》、中国台湾地区《国小字表》、中国香港特别行政区《小学生用
字一览表》、日本《当用汉字表》和韩国文部省指定的汉字表为对比对象。
将它们纳入 ISO/IEC 10646 的国际标准的框架下的数据库,分别进行覆
盖率统计与字形异同的对比分析,并按照汉字简化、正形、异体代换映
射的结果,分列出清晰的“ 同形同码” 、“微差同码”和“ 简化异码”等多组
对比字表,及其诸子集的频率权重统计图表。《中日韩常用汉字对比分析》
作为一项处于语言文字与信息技术边缘的研究项目,由张轴材先生主持,
依托北京书同文数字化技术有限公司,充分利用数字化技术,开展中日
韩和港台地区的多边合作,“取得了具有实用价值的成果” 。日前该项目
通过了教育部语言文字信息管理司主持召开的鉴定会,获得了来自北京
大学、北京师范大学和商务印书馆等教育出版界的专家的好评。根据鉴
定组专家也提出的意见与建议,该项目组利用书同文公司的数字化资源
进一步开发,完成了从 V3.30 版到 V4.0 版的大规模更新。目前已决定纳
入《国家语言生活绿皮书》由商务印书馆出版。 见“CJK 求同询
异”/CoolHanzi/
5Th CDF C-DigitizationSinceABC By UniHan
b) 整合 CJK 汉字构件集:
目前业已成为国际标准或国家规范的各汉字基本笔画、部首、构件,
之间,存在着复杂的关系,有的相互重叠,可能具有同形异码/异名,异
形同名。本项目的人物就是梳理这些基本的构件,形成他们的并集,建
5Th CDF C-DigitizationSinceABC By UniHan
立各元素之间的映射关系(Mapping) 。供从事汉字键盘输入、手写辨识、
汉字教学、汉字字库等研究开发及标准化的工作者参考。
在该项目中,把笔画、部首、部件、构件,都视为广义的“构件” 。
他们的并集称作 CJK Component Set 。广义的汉字构件集包括:
A. CJK Strokes in Unicode 5.0
B. CJK Radicals in Unicode 4.0
C. Kangxi Radicals in Unicode 4.0
D. GF3001-1997 构件集
文件可下载:/CoolHanzi/#down_paper
c) CJK 拆分序列 IDS :CJKDecomposed (文件可下载)
/CoolHanzi/#down_paper
此前虽然有多人做过类似的项目,但遗憾的是一般都不提供公开的
电子文档。同时,由于三个原因,汉字拆分的结果也往往有所差异:
第一,依据的汉字构件集不同;第二,拆分规则不同;第三,一般电脑
文档评论(0)