三大功能:对未来数字化古籍的期待.docVIP

三大功能:对未来数字化古籍的期待.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
三大功能:对未来数字化古籍的期待 王兆鹏   中文古籍的数字化,近几年发展迅猛,种类之多,数量之大,功能之强,都出乎我们的意料。古籍的数字化,不仅可以给我们提供强大的检索功能,还可以帮助我们发现问题。数字化古籍,怎么能够发现问题呢?我举两个例子。   一是《全宋词》中,有许多互见词,也就是一首词被收录在不同作者名下,由于史料的缺乏,有的难以判断这些互见词的真正作者。为慎重起见,我的老师唐圭璋先生在编《全宋词》时,根据相关文献,把这些互见的同一首词编列于不同作者的名下。唐先生生前,曾经耗费大量的精力,做过《宋词互见考》,能断是非的就作判断,不能断是非的就存疑。我原以为唐先生已经将这一工作穷尽了。前几年一次偶然的机会,却发现《全宋词》中还有些互见词,老师并未发现。那是我要统计《全宋词》中相互唱和的词作,请一个朋友帮我设计一个软件,将《全宋词》中用韵相同或相近的词作全部列出目录。他用了四个小时,在《全宋词》数据库里加写了一个程序,经计算机自动运算处理,最终用Excel帮我列出了我所需要的相关资料和数据。如果让我手工在计算机上查询2万多首词哪些是属于唱和次韵之作,恐怕没有一年半载的时间难以做到,他却只花了一个晚上的时间就帮我搞定了。这使我相信,古籍的数字化,只有我们想不到的,没有做不到的。我们利用古籍做研究的人,需要数字化古籍库提供什么功能,都应该可以解决。我在统计结果时,意外地发现,有许多用韵完全相同的词,有的属于同一首词,而见于不同作者名下,即属互见词。其中不少互见词,我的老师没能发现。这并不是我比老师高明,而是电脑可以穷尽式地处理资料数据,而手工和记忆,毕竟会有遗漏。不是这个数据库,我既不可能准确地统计出《全宋词》中唱和词的情况,也无法发现《全宋词》中还有一些互见词有待考定。这是数字化古籍帮我发现的第一个问题。   第二个问题是,前年我做《全明词》和《全清词》研究。由于明清之际的词人,时代的划分不易处理,属明属清,都有道理。于是,有的词人,这两本书都予收录。为了弄清楚这两本书究竟收录了哪些共同的词人和词作,我让门下研究生做了一个数据库,将这两本书所收录的词人、词作和收录的来源文献,用Excel做了一个表格。结果意外地发现,同一位词人,两本书收录的作品数量、篇目并不一样,有的甚至相差二、三百篇。这主要是因为两本书依据的文献不一样。利用这个数据库,我写了一系列的《全明词》和《全清词》的研究论文,其中发现并指出了《全清词》应收而未收的词作有1600首之多。如果用人工比对,而不用数据库处理,花的时间多不说,也难以一一发现这些问题。   由此,我想到,未来数字化古籍,应该具有哪些功能才是最理想的?我以为,最好应具备三大功能,以适应专业研究者的需求。 一、智能化的检索功能   目前已经问世的大型数字化古籍,基本上都有全文检索功能,似乎不必再饶舌。但目前全文检索的功能相对单一,还不能满足专业研究者的多元需求。因为,这些全文检索,只能是关键词的检索,不论是单词检索,还是组合检索,检索一次,都只能检索到与输入的词语严格匹配的资料,而不能检索到不含输入的词汇而实际相关的资料。比如,在《四库全书》电子版中检索“苏轼”的资料,只能检索到包含有“苏轼”二字的资料,却不能检索到不含“苏轼”二字、却含有“东坡”、“子瞻”、“大苏”、“苏徐州”、“苏黄”等与苏轼有关的资料,因为《四库全书》电子版不能自动识别“东坡”、“子瞻”、“大苏”、“苏徐州”等就是苏轼。也就是说,数字化古籍目前只能固定检索海量数据,而不能智能化地检索和生成新的数据。因为不能智能化检索,所以,我们无法穷尽古籍文献里的资料。如果说,用关键词检索人物资料,通过组合检索或多次检索的方式还能比较全面地查到所需资料的话,那么,查找相关主题的资料,就更加困难了。比如说,我想查《四库全书》中有关文学传播的资料,但是古人并不常用“传播”这个概念,如果用“传播”作为关键词,就无法查到《四库全书》中蕴藏的大量的传播资料。   要实现智能化的检索,数字化古籍必须能自动识别我们所需要的与关键词相关的资料。比如上面说过的,检索“苏轼”,数字化古籍能自动识别“东坡”、“子瞻、“大苏”、“苏徐州”也与苏轼有关。检索“李白”的资料,数字化古籍能自动识别“太白”、“谪仙”、“诗仙”等与李白相关的资料。检索杜甫的资料,数字化古籍能自动识别“杜子美”、“杜二”、“杜少陵”、“杜工部”、“诗圣”等与杜甫相关的资料。检索“传播”等主题资料,又能自动识别哪些资料与传播相关。   今后数字化古籍,如果能由单一检索变为多元检索、由定向检索变为关联检索、由静态检索变为动态检索,那就更好了。简单地说,就是实现检索的智能化。我们在数字化古籍中,输入一个关键词后,不仅能检索到与关键词匹配的资料,也能检索到与关键词关联的资料,还可以动态地

文档评论(0)

july77 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档