- 1、本文档共11页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
关于两岸汉子集成和字典通用的探讨
关于两岸汉字集成和字典通用的探讨
内容提要
本文从两岸汉字集成和字形编码检索的两个重点切入,探讨两岸汉语字典执行CJK标准,实现完全通用化,进而走向“无纸化”的有效途径
引言
上世纪九十年代初发布的《CJK统一汉字》标准中,两岸的规范字和标准字首次按字形并列于统一国际标准之中,终于实现和完成了现代汉字的规范化、定量化和国际化。这是两岸合作共同迈出的令人欣慰的第一步,但本是同根的两岸字体和字典的差别所带来的诸多不便依然存在。两岸有识之士不约而同的提出了“识繁用简”和“识简用繁”的明智主张,两岸专业机构和众多学者精诚协力,经过两年的奋力拼搏,合作编纂的《两岸常用词典》终于在2012年付梓,2013年初在两岸同时发行。这是两岸在文化交流合作中迈出的更加令人鼓舞的第二步。衷心期望有关部门的专业人员继续努力,更上层楼,是两岸合作编纂汉语字(词)典这朵奇葩开放得更加灿烂辉煌。本人不惴冒昧,草成拙文,上网公诸同好,希冀愚者之虑,或有一得。
2.现代汉字的定性定量分析:
《CJK统一汉字》标准的公布,奠定了现代(中国)汉字的基石。为以下行文方便,先行对现代汉字作一简要的定性定量分析:
----《CJK统一汉字》作为中、日、韩三国汉字的共同体,按字形共录入汉字20902组(每组1—4字不等)。
----在筛除日本汉字、韩国汉字和92个朝鲜文“史读”字后,其余的20077对CJK中国汉字,即为现代中国汉字。本人编列了825个非中国汉字的CJK代码一览表。因篇幅有限,暂予从简。
----按字形并列的两岸规范字和标准字,不能直接用作字(词)典的字头。按照“以义聚同”,“以形存异”原则,重新组合两体汉字,姑且名为“现代中国汉字集成对”(每对1—2字不等,以下均简称为“集成字对”),专门用作汉语字(词)典的正文字头。具体内容详见下文3.
----按照大陆《现代汉语通用字表》(1998)年,把上述集成字对分成“通用字对”(其中包括49个偏旁字符对)和“非通用字对”两部分。初步统计:集成字对共17617个。限于本人的学识水平,所作集成和分析必定有许多疏漏、冗余、不妥之处,切望得到专家学者指点斧正。
----通用字对作为“正体字”可再细分为常用字、次常用字、稀用字等;非通用字对则以罕用字、“异体字”、地域用字等为主,并用少量错讹字。具体划分和定量,见仁见智,尚无定论,也无必要。
3.两岸汉字集成与集成字对的表达方式
3.1集成原则:
按字义聚同,按字形有异,和谐融合,永续共存
3.2集成序号:
采用4位16进制数作集成序号。
71xx个通用字对的序号规定为:0001—1Bxx;104xx个非通用字对的序号规定为1D01—45xx。
按照追根溯源的方式。集成字对按标准字的CJK码序排列并确定其序号。唯有作为部首字的儿、无两字例外。
3.3集成字对的四种类型
----音形义全同(未被简化)的原形单个汉字型
----音义相同,字形不同(简化与被简化)的字对型
----单个规范字型
----单个标准字型
3.4集成字对表达方式示例:
集成字对 一 乾 干/乾 干 干/幹 干/榦 /竔 饸/ 饹/餎 CJK码· 原字符集号
4.集成字(词)典(拟议)的通用排检方案:
4.1.通用排检方案的前提:
为了使集成字(词)典在内容上和形式上都能达到完全通用,并为汉字文化圈认同接受的目的,字(词)点的排序检索,应该遵循以下原则:
----采用按《CJK统一汉字》标准重组的集成字对作正文字头,并标注CJK码和源字符集集号;
----字头按CJK标准采用的214个部首(与《康熙字典》相同)及其排序方式归部排序;
----除了传统的按笔画数检字的方法外,为了与电脑接轨,进一步实现“无纸化”目标,或许应该优先考虑按字形编码检索的方法;
----辅以并用拼音字母和注音符号的字音索引。
4.2正文字头和部首目录
4.2.1收字量:分上、下两册,上册收通用字对71xx个,下册收非通用字对104xx个。
4.2.2字头格式:集成字对,加注CJK码·源字符集集号。陆版和台版在字序上互相换位,以示对等。
4.2.3部首目录和字头排序:部首目录按214个部首编排,字头则按照其集成序号归部排序(次序与CJK码序基本一致)。
4.3字形编码与检字表格式:
4.3.1组字部件及其代码规定:
在214个部首字符中遴选组字表达功能强的161个(组)部首字符为不可再拆分的组字部件,另有4个未列入CJK标准的字省结构和变形结构的衍生部件。(161+4)个组字部件分为两组
第一组共31个部件,它们的代码规定为:
部件 一 丨、亅 丿 、 乙 扌 疒 艹/十十 虫 石 阝/阝 鱼/魚 革 火、灬 代码 1 2 3 4 5 A B C I D E F G H 部件 金、钅 口 亠 木
文档评论(0)