- 1、本文档共16页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
古文字的字形整理及其编码的原则 王 宁 北京师范大学民俗典籍文字研究中心 古文字进入计算机的必要性 80年代以来中国内地大量出土的文字,一部分已经进入今文字阶段,另一部分属于古文字。这一部分古4文字由于是考古发掘的成果,历史时代确定,无需辨伪,充实了从宋代就开始搜集的金石文字,掀起了世界性的中国古文字热。 新出土的古文字,不仅使汉字史的研究发生了很大的变化,也不仅对人类学、历史学、文化学、古地理学、历史语言学……起了新的推动作用,而且由于这部分文字所具有的十分典型的表意文字特点,以及所含有的文化内涵,被不断引进文化教育领域,迅速走向普及,成为世界各国了解中国文化的一个重要窗口,因此,已经在印刷品和影视传媒中频频出现。我们统计了2000年国内的8种重要的报纸和在国际上销量排前10位的普及刊物,其中的文章已经采用或需要采用古文字原形的地方有561处,涉及334个字形。 古文字进入计算机已经势在必行,科学整理字形,解决编码问题,是古文字信息处理的前提。 古文字字形整理与编码对信息处理的重要作用 由于造字技术的发展,已经有不少单位创建了某种字体的古文字原形字库。拥有古文字字库后,遇到的最大难题是如何将需要的字形及时找到,以便提供给其他专业领域和普及层面在创建文本时任意调用。 现有的GB13000.1字符集不可能与已经出土的古文字一一对应,即将出台的超大字符集仍然不够与各种形制和各时代的古文字对应。古文字的调出只有依靠自己的编码,要想作好编码,字形的整理必须先行。新出土的古文字加上原有的古文字,有些已经编成字表形式或加上解释编成诂林形式,但是,它们的字形整理还不能符合信息处理的需要。更达不到国际化的要求。 古文字不能作为某种字体与现代汉字对应 古文字字库的两种类型 古文字字库可以有两种类型:(1)指称型古文字字库。这种字库的功用,是在创建某些文本时,出于讲述或引用的需要,在行文中提到某个或某几个古文字时,能够把这些个古文字插到文本里去。(2)全原形古文字字库。这种字库的最高要求是要在计算机里再现一切现有的古文字实用文本中的字样。后一种要以前一种为基础。 创建一种指称型历史字体的字库,要求字形准和全,一般采用从古文字实用文本中选择字形,即使重新写字模,也要以选择好的字形为依据。字形选择必须整理文本用字。 古文字字形整理和编码的单位 字系:同时代、同形制全部的字符群 字组:同一字系中记词职能相同(音义相同)的多个字形的群体 字种:记词职能相同、结构(构意)相同的多个字形的群体。同一字组中不同的字种互为异构字 字样:同一字种中仅仅写法不同的个体。同一字种中不同的字样互为异写字 指称型古文字字库搜集字种,全原形古文字字库搜集字样。古文字编码应当以字种为单位 为编码进行的古文字字形整理 古文字字形整理的主要任务是认同与优选: 分别已识字与未识字 对已识字的职能认同(类聚字组),在同一字组的字种在排序时应当邻近,并优选领字字种,置于前列,作为本组字的信息代称 对字种的形体认同(类聚字样),优选主形,作为本字种的信息代称,同一字样应视为一个字,坚持同码 指称型古文字字库只保留主形字样,全原形古文字字库字组中的其他字样与主形认同。 “酉”的甲骨文异形字样 “齿”的甲骨文异形字样 字种的划分 以甲骨文为例,在字组中选择的字种数: 一 1 元 3 天 4 史 2 上 2 帝 6 旁 3 下 2 示 3 福 6 祭 3 祀 4 古文字编码的有利条件 古文字字库的作用有两个层面:第一,给专业人员研究和贮存文字使用;第二,供普及领域指称。后者用量不大,可以单独处理。主要考虑专业人员使用,编码在易学性上可以放宽。 他不需要通篇连续采用来创建长篇文本,在快速性上可以放宽;因而在码长(码元可以多一些)的设计上可以不必过于拘泥。 古文字信息量大、形体的参照系多,为其设计形码的区别因素多于现代汉字。 古文字编码可使用的区别因素 已识字与未识字首先分开。后者无法设置音码,应考虑基础部件的作用。 基础构件中成字构件可以采用读音(一般与《说文》小篆认同来确定);非字构件只能利用线条类型。例如:小篆可分:横、竖、左斜、右斜、弧、曲、折、封八类。 小篆结构图式共146种,再次归纳为基本图式12种,可以套用。 重码率:甲骨文经过处理可降低到1.9,但每码带动字样数平均7.4个,最多39个。 古文字字形部件的拆分与归纳 已识字的拆分和归纳均采用依理操作 未识字的拆分和归纳均采用依形操作 甲骨文已识字基础部件拆分归纳为基础
文档评论(0)