论中文字符集、字库及输入法的研制.docVIP

  • 7
  • 0
  • 约8.53千字
  • 约 9页
  • 2017-02-06 发布于湖南
  • 举报

论中文字符集、字库及输入法的研制.doc

论中文字符集、字库及输入法的研制

2006 年 9 月 语 言 研 究 Sep, 2006 第 26 卷 第 3 期 Studies in Language and Linguistics Vol.26 No.3 论中文字符集、字库及输入法的研制 尉 迟 治 平,汤 勤 (华中科技大学 中国语言研究所,武汉 430074) 摘要:中文字符集、字库和输入法应该按大小分成不同级别,应该研制面向古代汉语的字库, 面向超大字符集的输入法的研制应该充分考虑中国古代学术研究的特点和需要。 关键词:中文字符集;字库;输入法 中图分类号:H08 文献标识码:A 文章编号:1000-1263(2006)03-0063-04 进入 21 世纪以后,输入法的研制重新引起人们的关注,商家努力开发用于手机和 PDA 等产品的小 键盘输入法,而学者的兴趣则在面向中文超大字符集的输入法。2002 年,微软公司开发了“宋体-方正 超大字符集”,并提供了增强型区位码输入法,但并不实用[1]10[2]291。鉴于此,同年我们研制了“超大字 符集输入板”①。近两年,又陆续有一批面向超大字符集的输入法问世,网络上有好几种采用五笔字型编 码的;也有用部首或部首加笔顺检字的,如 BabeiPad 中的“汉字部首输入法”、“超大字符集找字工具” 和“方正新点码输入法”;还有用构件拼音首字母输入的,如“超大字符集检索_代码”;另外,“逍遥笔 3.0/4.0”则是鼠标手写输入。现在应该可以并且亟需重新对输入法,特别是与超大字符集输入法相关的 一些理论问题进行探讨,以推进汉语信息处理工作的发展。 所谓“超大字符集”是微软的用语[3]。严格地说,字符集是国家或国际标准,对每一个汉字定义一 个唯一的代码。字库是字符集在电脑上的实现,有了字库,字符集中的汉字才能在电脑上存储、处理、 显示、输入和输出。但字库并不等于字符集,同一个字符集,字库可以采用点阵或矢量等不同的技术开 发;同是矢量字库可以有 Type1、TrueType 或 OpenType 等不同的格式;同一格式又可以有宋体、楷体、 仿宋等不同字体;同是宋体字库又可以有各自的风格。中文超大字符集实际上是一种宋体 TrueType 字库。 表 1 是中文超大字符集与国家标准 GB2312《信息交换用汉字编码字符集?基本集》、《汉字内码扩展 规 范 》( GBK )、 GB18030 《 信 息 交 换 用 汉 字 编 码 字 符 集 基 本 集 的 扩 充 》 和 国 际 标 准 ISO/IEC10646-1:1993/Unicode2.0、 ISO/IEC 中文字符集分布表 表1 10646-1:2000/Unicode3.0 、 ISO/IEC10646- CJK Ext-A Ext-B 字数 GB Unicode 2:2001/Unicode3.1,在 CJK(CJK Unified 6763 — 6763 2312 Ideographs , 中 日 韩 统 一 汉 字 )、 Ext-A 20902 20902 GBK 2.0 ( CJK Unified Ideographs Extension A ,扩 20902 6582 27484 18030 3.0 展区 A)、Ext-B( CJK Unified Ideographs 20902 6582 42711 70195 3.1 Extension B,扩展区 B)上分布的比较②: 20902 6582 36862 — 64346 超大字符集 从表 1 可见,中文超大字符集与国家和国际 标准字符集并不完全相符。Ext-B 中没有收录的汉字,我们也可能需要使用,例如下面加点的字:《说文 基金项目:国家社会科学基金重大课题“汉语信息处理和计算机辅助汉语史研究”(04ZD027) 作者简介:尉迟治平(1944-),男,山西汾阳人,教授,主要研究汉语史和汉语信息处理;汤勤(1964-),女,湖北十堰 人,博士,主要研究应用语言学。 ① 见文献[2]。廖继莉的论文的基础是她的同名学士学位论文,2002 年 6 月通过答辩。先后参加开发工作的还有孙德平、 覃勤、仝小琳、魏慧斌几位博士,尉迟治平领导和参与了全部工作。 ② GB 各字符集和中文超大字符集在 Unicode 基础上增加了若干字,实际字数比表中数据略多。 ·63· 解字·木部》“桏,..椐木也。”《广韵·二十二昔》:“?.?.,益母草,《尔雅注》只作‘益’。”Ext-B 以外 的字,也有可能需要使用,例如下面加横线的字:《说文解字·艸部》:“蘄,艸也。从艸, 聲。”《广韵·二 腫》:“ ,上同(宂)。”Unicode 引入了Surrogate 机制处理4 字节字符,用High Surrogate 和Low Surrogat

文档评论(0)

1亿VIP精品文档

相关文档