简说《战国楚文字数字化处理系统》.doc

  1. 1、本文档共10页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
简说《战国楚文字数字化处理系统》

简说《战国楚文字数字化处理系统》 论文联盟www.LWLM.com编辑。  首个关于出土战国楚文字资料的数字化成果《战国楚文字数字化处理系统》(光盘)经华东师范大学 中国 文字 研究 与 应用 中心古文字数字化开发组多年开发研制,日前由上海 教育 出版社出版。   该成果是一个多功能的战国楚系汉字及其所传载的出土 文献 的数字化处理平台,包括“战国楚文献检索系统”、“战国楚文字字库”、“楚文字输入法”、“楚楷对应转换程序”四大部分。“战国楚文献检索系统”收录了迄今已发表的战国楚系简帛文、铜器铭文、玺印文、货币文文献,相关实物材料2267件。其中以简帛文为主体,以著录材料计,有《曾侯乙墓》(文物出版社1989年7月版)竹简及竹签文字218条;《包山楚简》(文物出版社1991年10月版)竹简、木牍文字306条;《九店楚简》(中华书局2000年5月版)竹简文字196条;《郭店楚墓竹简》(文物出版社1998年5月版)竹简文字711条;《战国楚竹简汇编》(齐鲁书社1995年11月版)竹简文字417条;《上海博物馆藏战国竹书》(一)(上海古籍出版社2001年版)竹简文字98条;《上海博物馆藏战国竹书》(二)(上海古籍出版社2002年版)竹简文字116条;《长沙子弹库战国楚帛研究》(中华书局1985年7月版)帛书3篇。铜器铭文则以《殷周金文集成》、《考古》、《文物》、《考古与文物》的著录为主要材料来源,计收铭文61篇。玺印文以《古玺汇编》为主要材料来源,计收印文92篇。货币文以《中国钱币大词典·先秦编》为主要材料来源,计收货币文32篇。总字数达56689字,删除添加的对应通用字、合文释字及各种符号等,文献本体字数为50538,其中简帛文48724字,金文1437字,玺印文317字,货币文60字。该系统不但具有任意字、句的全文检索,任意字的频率数据检索,文献附着材料的各种属性检索,着录检索等必要的数字化处理功能,并且还具备逐字显示对应原始实物文字影象的功能。   “战国楚文字字库”的收字包括了“战国楚文献多路径全文检索系统”中所收录的文献实际用字,并按数字化处理要求进行了严格整理。包括楷体字和原形字。楷体字形端正,原形字据铭文拓本扫描制作,逼真美观。   “楚文字输入法”采用了针对古文字输入特殊需要的新近开发的“三级字符全拼输入检索系统”的编码原则进行编码,是一种非常简单易学(只要掌握全拼输入者无需专门 学习 )的古文字输入法,同时也具有大字符集中生僻字简易输入(即不知读音也可成功输入)的功能。   “楚楷对应转换程序”可以在Word上实现 现代 通用繁体字和楚文字原形字的双向对应转换,为楚文字原形字的使用创造了极大方便。   光盘中还附有“说明文档”,含各种程序使用的详细说明以及有关系统开发研究的介绍阐释,如《“战国楚文献检索系统”使用指南》、《“楚文字输入法”使用手册》、《“楚楷对应转换程序”使用说明》及立足数字化平台的楚文字文字系统的论著《基于“战国楚文字数字化处理系统”的楚文字系统概述》。   这个系统,实现了出土战国楚文献的多路径全文检索,及楚文字的 计算 机输入,使学界所期盼的出土楚文字材料的计算机数字化处理变成了现实。然而,保证这个目标得以实现的根基,还在于对该系统的数据本身——楚文献文本的收录、整理和加工。   古文字数字化对数据(古文献文本)是有自己特定要求的,这种要求大致涉及收集、整理、保真三个方面。   1.数据的收集,以真实、系统、穷尽为目标。   古文字数字化具体目标涉及多方面多层次:古文字研究,汉字教学,数字化图书馆建设,互联网上的古文字传输平台建设,乃至涉及古文字的排版印刷等等。要真正完成这多方面多层次的任务,在古文字的数字化处理平台中的数据就应该是真实、系统、穷尽的。另一方面,数据统计乃是“数字化”一大独特功能,从这一功能的要求来看,古文字数字化开发中的数据更必须要在真实的基础上达到系统、穷尽的,因为不穷尽(至少是一定范围、层次的穷尽),统计所得数据就没有多大意义。然而具体落实这种要求,势必需要首先在材料收集方面付出艰苦的努力:穷尽是指在所划定范围内的没有遗漏;系统是指对应有的方面、层次合理包蕴及必要的强调;真实是指对资料原始面貌的客观保持。应该说,各种不同类型的古文字数字化项目为实现以上目标可能会有不尽相同的操作方式,但在“字”的处理这个基础层面上则会面临同样的选择。比如在 目前 古文字尚未在国际标准字符集中编码的条件下,任何一种古文字数字化产品都必须另建古文字字库来支持 电子 文本,字库中的字形是取自二手材料还是取一手材料?二手材料,是指已有的古文字字汇字典类工具书;一手材料,则是实物文字材料的拓片影象。毫无疑问,利用二手资料,工作会省力方便得多,而利用第一手资料,则必须投入巨大的归纳、整理、认同之类工作量

文档评论(0)

ayangjiayu3 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档