先秦文献的信息处理刍议.pdfVIP

  • 15
  • 0
  • 约4.71千字
  • 约 4页
  • 2015-08-15 发布于安徽
  • 举报
先秦文献的信息处理刍议 陈小荷,2008年11月23日 我们正在做一个项目“先秦汉语词汇统计与知识检索”,准备对25种最重要 1 的先秦传世文献 进行词语切分、词性标注、个别常用词(包括古今字和通假字) 的词义标注,建立先秦书面汉语(以下简称先秦汉语)的词汇知识库以及先秦文 献的历史知识库并研制相应的检索系统。有关文献选择、版本选择、校勘等方面 的问题,我们会请教古文献方面的专家学者。今天想主要就先秦汉语的词汇计算 和内容计算两个方面的问题向在座专家汇报我们的初步想法并希望得到指教。 目前先秦文献的信息处理大体还处于字处理阶段,以解决古文字的输入输 2 出、文献逐字索引等问题为主要内容 。先秦文献的词处理只有一些尝试性的实 践。山西的几位古文献专家对《左传》做了词语切分。他们在《左传》约25万 3 字语料中,切出了7069个多字词条 ,在总词频中约占12%。《左传》总共

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档