大规模古籍汉字用字统计报告.docVIP

  • 20
  • 0
  • 约 13页
  • 2017-02-05 发布于湖南
  • 举报
大规模古籍汉字用字统计报告

文传论丛 第三届汉文史资料库研讨会 107 大规模古籍汉字用字统计报告 张 轴 材 1.项目背景和概况 本项目是在北京书同文数字化技术有限公司长期从事的古籍数字化工作的基础上,由 国家语委十五科技攻关计划资助的重点项目。本报告中还包含了另一个相关项目的成果, 即“中国古籍用字在 ISO/IEC 10646 CJK 汉字中分布研究”。由于二者关系紧密,故一并报 告。 这项研究基于八亿古籍汉字语料,借用书同文全文检索引擎(UniFTR 2.0)对语料中所 出现的约三万编码汉字(接近于所谓“字头”或“字种”)进行了逐字的出现率(字次)统计; 并对统计结果进行了初步的分析。 根据目前掌握的信息,迄今为止中文信息界所作的数亿字规模的汉字字频统计,都是 基于现代汉语的;而基于国际标准编码字符集和数亿古籍语料的统计分析,此前尚未见报 告。由于电子出版业和数字图书馆事业的迅猛发展,学术界和产业界对于古籍汉字的字频 统计数据的要求日益迫切,我们希望并且相信,本报告可以起到某种基础性贡献的作用, 有利于各项相关技术和应用的发展。 2.统计对象- 语料及字符集 A.概述 本项目的基础语料来自文渊阁《四库全书》电子版和《四部丛刊》电子版。前者 的汉字出现率,近七亿字次;后者近一亿字次;加起来接近八亿字次。尽管二者在使 用率上尚有很大差异,但孰大孰小很难权衡,所以在合并语料时,未做任何加权处理, 而是简单叠

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档