三大功能：对未来数字化古籍的期待.docVIP

下载本文档

2
0
约3.73千字
约 5页
2017-08-13 发布于安徽
举报
版权申诉

三大功能：对未来数字化古籍的期待.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

三大功能：对未来数字化古籍的期待王兆鹏　　中文古籍的数字化，近几年发展迅猛，种类之多，数量之大，功能之强，都出乎我们的意料。古籍的数字化，不仅可以给我们提供强大的检索功能，还可以帮助我们发现问题。数字化古籍，怎么能够发现问题呢？我举两个例子。　　一是《全宋词》中，有许多互见词，也就是一首词被收录在不同作者名下，由于史料的缺乏，有的难以判断这些互见词的真正作者。为慎重起见，我的老师唐圭璋先生在编《全宋词》时，根据相关文献，把这些互见的同一首词编列于不同作者的名下。唐先生生前，曾经耗费大量的精力，做过《宋词互见考》，能断是非的就作判断，不能断是非的就存疑。我原以为唐先生已经将这一工作穷尽了。前几年一次偶然的机会，却发现《全宋词》中还有些互见词，老师并未发现。那是我要统计《全宋词》中相互唱和的词作，请一个朋友帮我设计一个软件，将《全宋词》中用韵相同或相近的词作全部列出目录。他用了四个小时，在《全宋词》数据库里加写了一个程序，经计算机自动运算处理，最终用Excel帮我列出了我所需要的相关资料和数据。如果让我手工在计算机上查询2万多首词哪些是属于唱和次韵之作，恐怕没有一年半载的时间难以做到，他却只花了一个晚上的时间就帮我搞定了。这使我相信，古籍的数字化，只有我们想不到的，没有做不到的。我们利用古籍做研究的人，需要数字化古籍库提供什么功能，都应该可以解决。我在统计结果时，意外地发现，有许多用韵完全相同的词，有的属于同一首词，而见于不同作者名下，即属互见词。其中不少互见词，我的老师没能发现。这并不是我比老师高明，而是电脑可以穷尽式地处理资料数据，而手工和记忆，毕竟会有遗漏。不是这个数据库，我既不可能准确地统计出《全宋词》中唱和词的情况，也无法发现《全宋词》中还有一些互见词有待考定。这是数字化古籍帮我发现的第一个问题。　　第二个问题是，前年我做《全明词》和《全清词》研究。由于明清之际的词人，时代的划分不易处理，属明属清，都有道理。于是，有的词人，这两本书都予收录。为了弄清楚这两本书究竟收录了哪些共同的词人和词作，我让门下研究生做了一个数据库，将这两本书所收录的词人、词作和收录的来源文献，用Excel做了一个表格。结果意外地发现，同一位词人，两本书收录的作品数量、篇目并不一样，有的甚至相差二、三百篇。这主要是因为两本书依据的文献不一样。利用这个数据库，我写了一系列的《全明词》和《全清词》的研究论文，其中发现并指出了《全清词》应收而未收的词作有1600首之多。如果用人工比对，而不用数据库处理，花的时间多不说，也难以一一发现这些问题。　　由此，我想到，未来数字化古籍，应该具有哪些功能才是最理想的？我以为，最好应具备三大功能，以适应专业研究者的需求。一、智能化的检索功能　　目前已经问世的大型数字化古籍，基本上都有全文检索功能，似乎不必再饶舌。但目前全文检索的功能相对单一，还不能满足专业研究者的多元需求。因为，这些全文检索，只能是关键词的检索，不论是单词检索，还是组合检索，检索一次，都只能检索到与输入的词语严格匹配的资料，而不能检索到不含输入的词汇而实际相关的资料。比如，在《四库全书》电子版中检索“苏轼”的资料，只能检索到包含有“苏轼”二字的资料，却不能检索到不含“苏轼”二字、却含有“东坡”、“子瞻”、“大苏”、“苏徐州”、“苏黄”等与苏轼有关的资料，因为《四库全书》电子版不能自动识别“东坡”、“子瞻”、“大苏”、“苏徐州”等就是苏轼。也就是说，数字化古籍目前只能固定检索海量数据，而不能智能化地检索和生成新的数据。因为不能智能化检索，所以，我们无法穷尽古籍文献里的资料。如果说，用关键词检索人物资料，通过组合检索或多次检索的方式还能比较全面地查到所需资料的话，那么，查找相关主题的资料，就更加困难了。比如说，我想查《四库全书》中有关文学传播的资料，但是古人并不常用“传播”这个概念，如果用“传播”作为关键词，就无法查到《四库全书》中蕴藏的大量的传播资料。　　要实现智能化的检索，数字化古籍必须能自动识别我们所需要的与关键词相关的资料。比如上面说过的，检索“苏轼”，数字化古籍能自动识别“东坡”、“子瞻、“大苏”、“苏徐州”也与苏轼有关。检索“李白”的资料，数字化古籍能自动识别“太白”、“谪仙”、“诗仙”等与李白相关的资料。检索杜甫的资料，数字化古籍能自动识别“杜子美”、“杜二”、“杜少陵”、“杜工部”、“诗圣”等与杜甫相关的资料。检索“传播”等主题资料，又能自动识别哪些资料与传播相关。　　今后数字化古籍，如果能由单一检索变为多元检索、由定向检索变为关联检索、由静态检索变为动态检索，那就更好了。简单地说，就是实现检索的智能化。我们在数字化古籍中，输入一个关键词后，不仅能检索到与关键词匹配的资料，也能检索到与关键词关联的资料，还可以动态地