古籍自动校勘研究和实现.docVIP

下载本文档

5
0
约6.13千字
约 14页
2018-08-25 发布于福建
举报
版权申诉

古籍自动校勘研究和实现.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

古籍自动校勘研究和实现

古籍自动校勘研究和实现　　(南京农业大学　人文社会科学学院，江苏　南京　210095) 　　摘要：古籍自动校勘是指利用计算机自动发现并标记出古籍不同版本之间的文字差异，并提供各种校勘辅助工具帮助专家勘误。本文讨论了古籍自动校勘的意义，接着详细阐述了古籍自动校勘系统的总体设计及其实现，包括选题和资料收集、自动校勘的对象和方法，最深入讨论了古代官名表、人名表、地名表等自动校勘辅助工具的建设问题。最后，设计了实验检查校勘系统的效果。实验结果表明，本系统的召回率和精确率分别达到了92.3％、95.2％。　　关键词：计算机应用；中文信息处理；古籍整理；自动校勘；校勘辅助工具　　中图分类号：TP391　文献标识码：A 　　　　1　古籍自动校勘的意义　　　　古籍在传抄、印刻的过程中，往往会出现各种错误，一种古籍有多个版本，各版本之间的内容差别很大，这种现象屡见不鲜，故必须对古籍进行校勘。校勘，是指利用古籍不同版本和其他资料，通过比较核对和分析推理，发现并纠正古籍在流传过程中发生的文字错误[1]。古籍校勘是古籍整理、阅读和文献研究的基础。　　古籍自动校勘，指利用计算机自动发现并标记出古籍不同版本之间的文字差异，并提供各种辅助工具帮助专家勘误。虽然这是一个以计算机为主、人工为辅的半自动校勘过程，但它除了具有人工校勘的意义外，还具有以下的作用：(1)可以提高工作效率。古籍校勘工作中，各版本的校异任务相当繁重，如一部30万字的古籍，取四种重要版本互校，共120万字，一个人需要几年的时间才能完成，而大型计算机只需几小时即可实现。(2)可以提高校勘质量。人工比较古籍各版本差异难免会出错，如用计算机来完成这一工作，准确度将大大提高。目前古籍数字化的研究炙手可热，但国内仍未见古籍自动校勘的研究成果，本研究是古籍自动化、智能化整理方面的一次初步探索。　　　　2　古籍自动校勘系统的实现　　　　2.1选题和资料收集　　《齐民要术》为北魏贾思勰所著，是中国现存最早最完整的古代农业典籍，也是世界农业史上最早最有价值的名著之一，流传至今各种抄本、刻本、印本和稿本等近50个版本[2]。本课题以《齐民要术》为实验对象，设计、开发古籍自动校勘实验系统。　　将不同版本的古籍资料进行数字化，是进行自动校勘的前提条件。南京农业大学中国农业遗产数字化研究所承担了“中国农业科技遗产信息数据库”的基金项目[3]，构建了“中国农业遗产信息平台”，建成了农业古籍全文库和农业典籍善本图文库，其中收录了柯逢时家清抄本(仿北宋本附校勘记)(以下简称仿北宋本)、明嘉靖三年(1524)马直卿刻本(即湖湘本)、光绪二十二年(1896)渐西村舍刻本(以下简称渐西本)和缪启愉校释本[4]。这四个版本的《齐民要术》电子文本，为本课题的实验语料。　　　　2.2自动校勘的对象和方法　　自动校勘的对象主要是针对文字的差异，按照国内校勘学的理论，将自动校勘的对象分为以下三大类：　　①错文：古籍在其流传过程中出现的文字错误。这一类对象包含了校勘学上的误字、倒错、异文三种情况。其中，误字，是指古籍在其流传过程中出现的错字，亦称“误文”或“讹文”。倒错，是指古籍原文位置的颠倒错乱。异文，是指古籍在流传过程中出现的各种版本之间文字差异，由于时代变迁、字体演变、书写形式不同造成的古今字、异体字、繁简字、通假字和避讳字。　　②脱文：古籍在其流传过程中比原文脱落遗漏了的文字，又称“夺文”。从脱文的形式上看，有脱字、脱句、脱行、脱页等，脱文的原因上有抄脱和意删等。　　③衍文：古籍在流传过程中比原文多出的文字。从衍文的形式看，有衍字、衍句、衍行、衍页等，衍文的原因包括无意抄刻及有意妄加等情况。校勘的方法包括对校法、本校法、他校法、理校法和综合校法。由于在校勘过程中，计算机很难像人一样加以理解和判断，因此本项研究试用对校法进行自动校勘，即用同一部古籍的各种不同版本相互比较。　　　　2.3自动校勘的算法设计　　借鉴中文文本自动校对[5]和模式匹配技术，笔者设计出基于“窗口匹配”的自动校勘算法，是古籍自动校勘系统的核心算法。假设现有底本字符串book1和校本字符串book2，移动窗口w，s1和s2分别为book1和book2的子串，subs2为s2的子串，locationl和location2分别为subs2在s1和s2中出现的位置，该算法的流程见图1，其核心步骤如下所述：　　①从book1和book2中，由左到右顺次取出大小w的子串s1和s2；　　②比较s1和s2是否相等，如果相等转到步骤①，如果不等转到步骤③；　　③比较s1和s2两个窗口左端连续的n个字符是否相等，如果相等，窗口同时向右移动n个字符，即跳过相等的部分，转到步骤