信息时代书同文%3a汉字数字化进程回顾和思考.pdfVIP

信息时代书同文%3a汉字数字化进程回顾和思考.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
信息时代书同文:汉字数字化进程回顾及思考 陈蔚松 汉字是世界上历史悠久而唯一沿用至今的文字。历经几千年沧 桑,汉字也随着19世纪、20世纪工业化、信息化浪潮跨入了数字化 进程。进入20世纪70、80年代,在计算机汉字输入的编码实践中, 海峡两岸的中国专家学者便不同程度地提出了汉字数字化问题。由 于汉字的形体特点,在电报通信、字典编纂、汉字排序检索、计算 机输入等领域,汉字信息转换为十进制数字O~9,是一个有必要回 顾、总结并进一步探索、研究、开发、应用的数字化进程。 三角编码是较早应用于中文电脑系统,并在国际间产生广泛影 响的一种汉字数字编码,从设计思想、编码理论而言,研制者台湾 胡立人等已明确提出了编码主要目的是提供一种汉字数字化方法: “为了数据处理、远程通讯及打印输出,需要对汉字进行编码,这 个编码过程并不简单。三角编码法构成一个编码、索引和检索系统, 它合理地把一个标识数分配给相应的汉字,主要目的在于提供一个 更加一致的数字化方法,以有效地减少汉字输入中的困难。”…三角 编码法的应用和推广,是汉字数字化进程中一个重要的里程碑。 与二角、三角、四角编编码不同,另一类数字编码则着眼于汉字 构造的最小单位一笔画,如李金铠等人的笔形码、澳大利亚卢遂现的 笔顺码以及“五笔画”笔形码。从李金铠等人的笔形码、澳大利亚 卢遂现的笔顺码以及“五笔画”笔形码总体来看,李金铠长城笔形 码是一种很有代表性的汉字数字编码,在电脑汉字输入领域取得了 多项第一,以突出的成绩具体实践了汉字数字化: “把二度空间排 列的汉字笔画简单地译成线性排列的数码”, “直接用数码进行汉 置了智能ABC等中文输入法,智能ABC除用拼音输入外,还用长城笔 形码输入。但是另一方面,我们也可以看出,以上三种笔形码都是 细分到笔画,规定性的成分很多,笔画排列各不相同,反不如四角 号码法取码笔形实际上是包含单笔画和笔画组合,较为直观简易, 取码口诀也有一定的规律性和合理性。 无理序号数字编码法设计人是肖水清先生,所以也称“肖码”。 “肖码”是一种广泛选取声母、韵母、笔画特征信息的数字编码系 统,包括音(声母、韵母)、形(部首、笔画)数字编码法和纯形(部 首、笔画)数字编码法。其键位设计中利用O~9十个阿拉伯数字汉 语读音(4还兼用其简谱唱名)对应数字声母、韵母,也利用部首笔 画数来对应1~7数字键,一定程度上建立了汉字特征信息与十个数 字键之间互相关联的映射关系,有一定的“有理性”。不过“肖码” 数字编码系统涵盖面太宽,编码程序还是比较复杂,需要较多的思 考过程,也增加了一些使用难度;而且汉字特征信息与数字键之间 映射关系的有理性非常有限,也比较脆弱,比如用部首笔画数对应 l~7数字键,除1笔、2笔、3笔之外,较多的部首笔画数不容易一下 判定、也不容易记住:而数字键8、9、0又对应几十个非规律性的部 首,可见部首笔画数对应数字键也前後不一致、不统一。 纵横汉字编码法是周忠继先生的研究成果。纵横汉字编码法把 构成汉字的笔画分成10种基本笔形,分别用0—9这十个数字表示,类 似四角号码的取码法,其笔形与数字代码关傺也用四句口诀记忆, 前三旬与四角号码法基本相同,第四句改为:“撇与左钩都是零”。 为了减少重码,纵横汉字编码法还把汉字的字形划分为有部首汉字、 无部首汉字两类;有部首汉字再划分出主部首和副部首。对于不同 类型的汉字,或取四角笔形代码、或取部首十字身编码,其类型、规 则、步骤比较繁琐;而更主要的问题是,其笔形数字代码缺少新意。 燕京学社引得编纂处编纂的引得(“引得”译自英文index,即 I)撷(xi6) “索引”之改译。),采用洪业创裂的“中国字庋(gu 法”,先把汉字字体分为以“中国字庋撷”五个字代表的独体字、 包托字、上下体、左壳体、左右体五种结构,依次用阿拉伯数字l、 2、3、4、5为代号;再把汉字笔画分为十种,用O~9十个阿拉伯数 字取号,其取号原理略与四角号码法相同,但代号不一样,其笔形 与数码代号对照如下: 笔画 、 一 J 十又于 糸 厂目八 号码 0 1 2 3 4 5 6 7 8 9 燕京学社引得编纂处为几十种重要的文史典籍编排数字编码索

文档评论(0)

july77 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档