- 2
- 0
- 约 63页
- 2017-09-10 发布于天津
- 举报
hadb汉字属性库
文字信息国际标准进展,问题与思考 张轴材 语言文字应用研究所 客座研究员 ISO/IEC IRG 汉字组 召集人 书同文数字化技术有限公司 CEO Joe.zhang@ 为什么此处只谈文字信息化? 对语言信息化标准的进展缺乏了解 个人充其量只有一些“数量文字学”的概念 字词语,字是基础; 文字信息化是语言信息化的基础 文字信息化的最基本的任务 建立传统的真实世界的文字(古今中外)与计算机世界(虚拟世界)的联系:编码汉字-汉字编码 Character Encoding ≠IME 编码汉字是文字在计算机内最基本的表达形式 文字编码特点 按文字编码,而不是按语言、国度、地域编码;CJK汉字统一编码。 按抽象字形编码,而不是按字音、字义编码,也不是按具体造型编码。 体系结构与过去ISO 2022迥然不同 在基本多文种平面,16比特全编码 ISO 2022 vs. UCS 16-Bit Full Encoding 编码结构 文字信息标准化的集中体现ISO/IEC 10646 Unicode 80 年代末启动 ISO/IEC 10646-1:1993 = GB 13000 ISO/IEC 10646-1:2000 + CJK_A,蒙, 藏,彝,朝… ISO/IEC 10646-
原创力文档

文档评论(0)