现代“古籍数据库”建设的OCR识别误差与文本挖掘陷阱——基于主流古籍数据库(如瀚堂、鼎秀)与善本扫描件的数据质量评估与数字人文反思.docxVIP

  • 12
  • 0
  • 约1.15万字
  • 约 22页
  • 2026-06-11 发布于北京
  • 举报

现代“古籍数据库”建设的OCR识别误差与文本挖掘陷阱——基于主流古籍数据库(如瀚堂、鼎秀)与善本扫描件的数据质量评估与数字人文反思.docx

现代“古籍数据库”建设的OCR识别误差与文本挖掘陷阱——基于主流古籍数据库(如瀚堂、鼎秀)与善本扫描件的数据质量评估与数字人文反思

摘要:随着数字人文范式的兴起与大语言模型技术的爆发式增长,现代古籍数据库建设已成为保存文化遗产与激活古典文献的核心动力,然而光学字符识别的误差与文本挖掘的算法陷阱也对学术研究质量构成了严峻的异化威胁。本文采用混合研究方法,基于对瀚堂、鼎秀等主流古籍数据库与馆藏善本扫描件的深度对比,联合构建了多源文本相似度对勘模型与误差拓扑网络分析框架。实证结果显示,由于异体字、古籍版式干扰及残损字导致的识别误差,导致古籍数据库在文学、历史等不同学科文本挖掘中的关键词检索流失率达到了百分之二十四点五,且古籍数据库文字识别的综合准确率在引入柔性校核机制前仅为百分之八十一点四。这一研究结论表明,一味依循技术乐观派的自动化数据生产往往会因底层乱码及误读造成深度的知识误判,而主动引入融合版本学、校勘学与大数据技术的混合对勘机制,能有效筑牢数字人文研究的安全网,这为智媒时代古籍数字化保护与古籍整理跨学科转型开辟了全新的批判性视域。

关键词:古籍数据库,光学字符识别误差,文本挖掘,数据质量评估,数字人文反思

引言:随着大数据、云计算与大规模预训练模型的爆发式增长,古籍数字化基础设施建设日益完善,但在古代文献数字转型过程中,底层图像光学字符识别的精确度异化与多模态文本挖掘陷阱等问题日

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档