大数据时代的古典文学研究——以数据分析、数据挖掘与图像检索为中心.pdfVIP

大数据时代的古典文学研究——以数据分析、数据挖掘与图像检索为中心.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大数据时代的古典文学研究——以数据分析、数据挖掘与图像检索为中心

· 数据科学与古典文学研究 · 大数据时代的古典文学研究 — — 以数据分析、数据挖掘与图像检索为中心 刘京 臣 内容提要 随着大数据、云计算、图像检索等技术的发展,古典文学信息化的重点应当由数 据检索向数据分析、数据挖掘转型。在图像处理领域,针对疑难文字的OCR技术与利于版本 校勘的图像检索,是值得期待的方向。 关键词 数据分析 数据挖掘 OCR 图像检索 信息技术极大地推动了古典文学研究,这已成为学界共识。具体来说,这一推动主要表现在数据 采集、数据检索等方面,如 《文渊阁四库全书电子版》、《四部丛刊电子版》、《中国基本古籍库》等都 是数据检索领域的杰出成果。检索之后的数据分析,也已经取得了一定的发展, 《全宋诗分析系统》 堪称数据分析的典范之作。这些成就,时彦多有论及 ,兹不为赘。 2005年,李铎先生即敏锐指出信息技术在人文学科的应用方面已经进入了 “分析时代” ,此说 确然。十年后的今天,社会已然进入了以大数据、云计算等为代表的 “挖掘时代”。对结构化文本的 数据分析、对非结构化文本的数据挖掘,是文本研究领域的发展方向。随着多媒体检索技术的发展, 对图像、声音、视频等进行检索成为 lT界的热点。图像检索随之被广泛应用于医疗 、遥感、测绘等领 域,并取得了相当成就。这些对传统的古典文学学科而言,是机遇,也是挑战。 本文中为了论述方便,我们将文献分为两大类 :一类是 已经被机器识别 (如 txt、doe、rtf等文档) 或可以直接被机器识别的 (如 《光明日报》、《文学评论》等报刊,《苏轼全集》、 《万历十五年》等现 代出版物等)文本文献;另一类是尚不能被机器直接识别的 (如稿抄本中的疑难文字等)图像文献。 结构化文本的数据分析 “结构化文本的数据分析”包含这样三个概念 。 其一, “结构化文本”主要是指诗、词等体式较为固定的文体,在利用技术手段处理时,因其体 式上的便利,易于寻觅到声调、用韵、格律、小序等方面的结构特征,故而对这类文体较易实现技术 干预。其二,“结构化文本”还指排除掉文字识别、大字符集、分词、断句等因素干扰,完全满足用 户需求的、已进行过标注与分类的数据。同时,还要尽可能多地加载满足分析所需要的第三方文献 库——文献库主要 由两大类组成,一类是诸如人名、职官、地名、系年、典故等具有词典性质的基础 文献库;另外一类是已经数字化的历代研究者的研究专著,便于分析时与文本相参。 本文为国家社会科学基金青年项 目 “宋代文学地图数字分析平台研究”(项 目编号 12CZW032)阶段性成果。 ① 李铎 、王毅 《关于古代文献信息化工程与古典文学研究之间互动关系的对话》, 《文学遗产》2005年第 1期。 · 182 · 大数据时代的古典文学研究 “数据分析”,是 “数据检索”① 基础上的自动化分析,在一定程度上具备了初级智能,诸如以下 三类结构化文本基本可以借助数据分析来实现预期设想。 1.诗词韵、律等外部体式分析 前人在诗话、词话 中留下无数精妙的见解 ,利用技术手段,我们可 以对一些论断进行验证。如陈 仅 《竹林答问》称 “作古诗声调 ,须坚守杜、韩、苏三家法律”,1997年蒋寅先生以 《韩愈七古的声 调分析》(《第三届中国唐代文化学术研讨会论文集》,台湾政治大学中文系1997年)为例进行详尽研 究,指出清人所论,虽看似出自主观论断,然用实证之法相验却大抵不谬。现在利用技术手段可以对 任意时段、任意作家的相关诗歌进行声调分析,其效率较之人工判断更显优势。 再如诗歌中赋得诗、分题诗、分韵诗、次韵诗等,皆因有较为鲜明的标识而易于技术干预。我们 只需提取 “赋 ×得 X”、 “赋得 ×”等题名格式,则赋得诗可得大略。若对某一时段的上述体式诗歌 作品批量提取,将诗歌创作者、题材、体裁、用韵、留存等归纳总结,形成更为准确的数据,能较为 直观地勾勒出诗歌交流情况 ,对诗人唱和、诗歌雅集等研究是有益补充。如沈遘有 《应制依韵和御制 后苑赏花钓鱼》诗, “依韵”说明 “御制”诗亦押十灰韵 , “和御制后苑赏花钓鱼”点明了诗歌唱和 的内容;我们分别对北宋段押十灰韵的七律和以 “赏花钓鱼”为题的诗歌进行分析,抽绎出胡舍、宋 庠、欧阳修、韩琦、司马光等人的依韵和宋仁宗 《赏花钓鱼》

文档评论(0)

yan698698 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档