古籍自动化整理.DOCVIP

下载本文档

6
0
约5.08千字
约 5页
2018-09-30 发布于天津
举报
版权申诉

古籍自动化整理.DOC

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

古籍自动化整理

论古籍整理自动化北京大学中文系李铎信息科技在古代典籍的整理方面，经历着三个阶段。一是数据文献的录入。八十年代，台湾中央研究院率先录入整理重要的古代典籍。由于大陆较早使用的GB2312汉字系统仅支持6763个汉字，且不支持繁体，所以，大陆在文献的整理上仅限于现当代文学作品、大型报刊等。自96年WIN95支持CJK以来，大陆纔开始启动这方面的工作，但大多数仍处于计算器加手工作坊的阶段，即人工录入。九十年代末香港迪志公司与北京书同文公司联合开发《四库全书》，使用非特定人手写识别系统，极大的节约了人力物力。仅两年多的时间，我们就可以使用《四库全书》这部近八亿汉字的丛书了，后来书同文公司又开发了《四部丛刊》近一亿汉字的古籍数据库，目前该公司又着手《四部丛刊》的四编整理。二是文献的检索。一旦整理出古籍文献，它就进入了使用阶段，对于小量的文檔，就可以直接在自己的WORD中使用检索，查找需要字词，如果会使用VBA，还可以编辑引得、关联相关的数据库等等。如果是海量数据，可以使用特定的检索平台，甚至可以直接对数据库操作。还有多种的搜索引擎用来搜索互联网上的学术资源，这使古代文学、古代汉语的研究有了突破性的进展。三是古籍文献的自动化整理、多维数据库建设、智能分析阶段。它是在积累了一定的文本数据后的更高级的数据整理与多任务的应用开发，这一阶段的特征是，数据整理与学术研究相互促进，数据整理带有学术性，学术研究对数据库建设提出更精细的要求。也就是我们目前所处的阶段。我想以我们近期的工作及设想来说明之。《全宋诗》的自动化分析过程一、文字整理大陆的出版机构在九十年代初就比较广泛得使用了北大方正的排版系统，今天还有80%以上出版商仍在使用着，迄今出版了数万种图书。当初这一系统仅是为出版纸介而开发设计的，并未考虑到已输入到计算器的数据以后可以更进一步开发利用。如繁体字文献，该系统仍使用简体字内码，只是在输出照排时改变字型输出繁体字，而且此内码字库太少，亦无法适应古代文献的输出，所以北大方正又自行设计了一套扩充字库，用来补充那6763汉字，而这扩充字库未使用通用的标准系统，在内码上与后来的GBK中的繁体字完全不兼容，这在转换上造成了一定的困难，如文献中的“风B7E7”字，我们如果将之转换为繁体的“风”字（EF4C），就会发现，“风”字的数量增大了，因为在转换前，文献中已有“风（EF4C）”，相对GBK而言，它则应是字库中的“鹙”字，如果先将繁体的“风”（实际上是“鹙”字）转换为“鹙”，则与文献中另一位置的“鹙”（另外一个字）冲突，又多出了很多个“鹙”字。所以北大方正排版系统为排版而制作的数据需要经过复杂的转换过程，北京大学中文系语言学实验室开发了一套北大方正内码向GBK代码的转换系统，除人工实时造字外，基本上可以完整转换。《全宋诗》的整理便是基于这一转换系统，加人工补字来完成的。最初我们也曾考虑到使用录入、扫描识别等手段，但是由于当时扫描识别率较低，工作量过大，仅校对一项就要花费掉该项目的全部费用。二、格律诗的标注我们在录入整理《全唐诗》时还是使用手工作坊的方式：双机录入，单机校对。在《全唐诗》上网前，我想，我们不是一般的公司开发软件，我们应尽可能地利用我们的学术资源，在数据中融入一些商业公司无法操作的学术内容。所以，首先想到的是将《全唐诗》标注出格律来，这对我们这个项目组（我和一些研究生们）来说，是一项比较繁重的工作，由于有211项目的资助，我们还是决定人工加标识。可是，有很多作品我们无法判定其格律，所以请了袁行霈、蒋绍愚两位先生为我们的顾问，我们凡遇到无法判定的诗作就求教于这二位先生。仅此一项标注工作，就占去了《全唐诗》开发工作总量的四分之一。《全宋诗》有二十五万余首诗，是《全唐诗》的五倍，其格律诗的比例也远远大于《全唐诗》，如果一首一首标注，恐怕需要若干年的时间。如果使用计算器自动标注，会不会出现过大误差，我们实验性地开始此项工作。首先，我们依据《佩文韵府》建设了诗韵库，又根据诗的格律特征，依据王渔洋的《律诗定体》建设了二十八种格律诗模型库。然后，就由计算器对《全宋诗》扫描分析，使用加权重算法，使相当一部分的拗体诗（不符合二十八种格律的）也能被检索到，标识出十六万余首格律诗。经过分析对比，这种标识方法比我们原来整理唐诗时人工标注的更为准确。由于《佩文韵府》所定义的汉字，有太多的多音字，且分属不同韵部，尤其是同时分布在平声字和仄声字中。而在建宋诗平仄库时，由于没有宋诗的词语库（我们正在考虑建设），那么计算器在识别判断平仄时便遇到了困难，如“相”字，在“相思”词中，是平声，在“宰相”中则是仄声，如果有语词库，我们将语词权重加上，会比较容易地解决这个问题。现在的问题是：我们虽然可以根据诗的格律来判定当平当仄，可是这格律又是在建库时就要确定的，为解决这一问题，我