- 12
- 0
- 约1.15万字
- 约 22页
- 2026-06-11 发布于北京
- 举报
现代“古籍数据库”建设的OCR识别误差与文本挖掘陷阱——基于主流古籍数据库(如瀚堂、鼎秀)与善本扫描件的数据质量评估与数字人文反思
摘要:随着数字人文范式的兴起与大语言模型技术的爆发式增长,现代古籍数据库建设已成为保存文化遗产与激活古典文献的核心动力,然而光学字符识别的误差与文本挖掘的算法陷阱也对学术研究质量构成了严峻的异化威胁。本文采用混合研究方法,基于对瀚堂、鼎秀等主流古籍数据库与馆藏善本扫描件的深度对比,联合构建了多源文本相似度对勘模型与误差拓扑网络分析框架。实证结果显示,由于异体字、古籍版式干扰及残损字导致的识别误差,导致古籍数据库在文学、历史等不同学科文本挖掘中的关键词检索流失率达到了百分之二十四点五,且古籍数据库文字识别的综合准确率在引入柔性校核机制前仅为百分之八十一点四。这一研究结论表明,一味依循技术乐观派的自动化数据生产往往会因底层乱码及误读造成深度的知识误判,而主动引入融合版本学、校勘学与大数据技术的混合对勘机制,能有效筑牢数字人文研究的安全网,这为智媒时代古籍数字化保护与古籍整理跨学科转型开辟了全新的批判性视域。
关键词:古籍数据库,光学字符识别误差,文本挖掘,数据质量评估,数字人文反思
引言:随着大数据、云计算与大规模预训练模型的爆发式增长,古籍数字化基础设施建设日益完善,但在古代文献数字转型过程中,底层图像光学字符识别的精确度异化与多模态文本挖掘陷阱等问题日
您可能关注的文档
- 特殊需要儿童家庭“融合教育”抗争的微观政治与制度支持——基于2024年特殊儿童家长深度访谈与IEP(个别化教育计划)执行记录的案例研究.docx
- 特殊需要儿童家庭“融合教育”抗争的微观政治与制度支持——基于2024年特殊儿童家长深度访谈与IEP执行记录的案例研究.docx
- 特需儿童“融合入园”的隐性排斥与普教教师的资源匮乏焦虑——基于2024年幼儿园融合教育IEP执行记录与教师访谈的叙事探究.docx
- 体育“走班制”教学对高中生运动技能掌握与体质健康的增值评价——基于2024年高中体育选项教学课堂观察与学生访谈的案例研究.docx
- 体育“走班制”教学对高中生运动技能掌握与体质健康的增值评价——基于2024年某省高中体育选项教学试点校体质测试与技能考核数据的多层线性模型.docx
- 体育赛事_博彩数据_授权的反垄断合规与数据产权边界——基于欧盟数据法案与体育数据授权声明的文本对照.docx
- 体育赛事_粉丝数据_商业利用的隐私合规边界与消费者权利——基于GDPR粉丝数据指南与赛事声明的规范分析.docx
- 体育赛事_绿色承诺_的合规边界与商业宣传平衡——基于欧盟绿色宣称指南与赛事声明的规范分析.docx
- 体育赛事_区块链_应用的合规边界与商业创新激励——基于欧盟区块链指南与赛事声明的规范分析.docx
- 体育赛事_人工智能_应用的合规边界与公平竞争保障——基于欧盟AI法案与赛事声明的规范分析.docx
最近下载
- 主治医师 (肾内科学)-肾内科学试A3型题一.doc VIP
- chine教材sesunsystems培训手册.pdf VIP
- 2026年七年级生物(呼吸作用)实验测试题.doc VIP
- 2026年南京市中考数学试卷(含答案及解析).docx
- 2026年七年级道德与法治(家庭美德)专项考试题.doc VIP
- 国开企业集团财务管1-8自测试题及答案.pdf VIP
- 2026年八年级生物(生态平衡)专项考试题.doc VIP
- 北京市第四中学2024~2025学年下学期七年级数学期末数学试卷【含答案】.pdf VIP
- 2026年健康管理师(健康管理服务协调)自测试题及答案.doc VIP
- 海南大学2021《电磁场与电磁波》期末考试(B卷).doc
原创力文档

文档评论(0)