- 6
- 0
- 约1.98万字
- 约 27页
- 2026-05-23 发布于甘肃
- 举报
PAGE2
数字人文:历史典籍OCR识别后处理与词频分析
第一章绪论
1.1实验背景
1.1.1研究领域现状
数字人文作为计算机科学与传统人文研究的交叉领域,近年来正处于快速发展期。随着全球图书馆与档案馆数字化进程的推进,海量历史典籍被转化为数字图像,为人文研究提供了前所未有的宏大数据基础。
然而,典籍的数字化仅是第一步,从图像到可计算文本的转化才是核心挑战。光学字符识别(OCR)技术虽已成熟,但在面对历史典籍时仍遭遇严重瓶颈。古籍版式复杂、字体多变、纸张老化污损,导致机器识别准确率难以满足学术研究的严苛要求。
当前,通用OCR引擎在近代印刷体文本上可达99%以上的准确率,但在古籍扫描件上往往骤降至80%甚至更低。这种精度落差产生了大量“数字噪音”,使得后续的文本挖掘与词频分析建立在脆弱的数据基础之上,严重制约了数字人文研究的深入。
1.1.2实验问题提出
基于上述现状,本实验问题的核心矛盾在于:机器识别的高误差率与人文量化分析对高精度文本的需求之间的冲突。未经校对的OCR文本充斥着错字、漏字与乱码,直接进行词频统计会产生严重偏差。
例如,“陛下”被误识为“陛下”,“郡县”被误识为“郡县”,将导致历史语义的彻底扭曲。这种误差并非随机分布,而是集中在生僻字、异体字与模糊区域,形成系统性的数据偏移,使得高频词统计失去史学参考价值。
因此,本实验提出:必须引入人工校对作为O
您可能关注的文档
- 基于汉服交领右衽结构的现代机能风男装改良与面料重组_服装与纺织品设计.docx
- 示波器使用与李萨如图形观测及频率测量实验.docx
- 英国工业革命时期城市公共卫生危机的治理逻辑与启示_历史学.docx
- 盲人智能手机的无障碍触觉反馈交互与语音导航界面设计_UI UX交互设计.docx
- 模态逻辑在人工智能知识表示中的应用局限与拓展可能_逻辑学.docx
- 数字资本主义下的“数字劳工”剥削机制及其批判研究_马克思主义理论.docx
- 拖延症背后的自我调节疲劳与低自尊的循环作用机制_心理学.docx
- 基于梯度泄露的联邦学习隐私分析_联邦学习-隐私-重构.docx
- 药品冷链物流温度记录标签固定机构设计_智慧制药.docx
- 小学高年级实用性写作指导:《我的周末活动计划表》制作与简要说明_生活语文-计划.docx
最近下载
- T∕CRES 0019-2023 风力发电机组叶片螺栓组件.pdf
- 高频精选:汉中医疗岗面试题及答案.doc VIP
- 山东第一医科大学《肿瘤学(放射治疗临床应用)》2024-2025 学年第一学期期末试卷.pdf VIP
- 1.广义鲁棒控制与内生安全.pdf VIP
- 《内生安全基础理论研究进展蓝皮书》.pptx VIP
- 淮南潘集采煤沉陷区重金属分布、赋存与生物累积的多维度解析.docx VIP
- 机器人学期末考试及答案.docx
- 【安全生产】-风险隐患-旅游企业安全生产检查表.pdf VIP
- 安徽合肥一六八中学2026届高三最后一卷含答案(9 科试卷)1.pdf
- 《辐射 1》(《异尘余生》)攻略.pdf VIP
原创力文档

文档评论(0)