数字人文文本挖掘方法——基于2024年古籍全文数据库词频统计.docxVIP

下载本文档

4
0
约1.13万字
约 23页
2026-04-29 发布于海南
举报

数字人文文本挖掘方法——基于2024年古籍全文数据库词频统计.docx

数字人文文本挖掘方法——基于2024年古籍全文数据库词频统计

语词的谱系：数字人文视域下古籍文本挖掘的方法论建构、实践与反思——基于2024年六大集成性古籍全文数据库的大规模词频统计与概念网络分析

摘要与关键词

本研究旨在系统考察数字人文方法在古籍文本研究中的应用效能与内在局限，并以大规模词频统计为基础，尝试提出一种融合定量模式识别与深度文化阐释的综合性分析路径。通过构建“数据源评估”、“多层级词频算法适配”、“历时分布映射”与“网络拓扑结构分析”四维方法论框架，对2024年度具有代表性和开放访问权限的中国古籍全文数据库（包括但不限于“中国基本古籍库”、“国学宝典”、“汉籍数字图书馆”、“中华经典古籍库”及两个区域性专题数据库）进行系统性数据采集与预处理，覆盖先秦至清末经史子集各部类共计约一百万卷（篇）数字化文本。研究首先对这些海量文本进行综合词频统计，识别出前一万个高频通用词及各部类特有的高频主题词。研究发现：第一，超高频词呈现显著的“功能词主导”特征，前一百高频词中虚词、专名等结构性词汇占比高达百分之八十六，而承载核心文化概念的“关键词”则分散在后续中、高频区间，其绝对频次虽然可观，但在庞大文本基数下相对占比极低，传统基于简单词云或孤立频数排序的方法效能有限。第二，词频的历时性波动呈现出复杂的“阶梯状”与“脉冲状”分布，仅以朝代为单位进行均质化统计会掩盖重大文本集群（如某部大型

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

数字人文文本挖掘方法——基于2024年古籍全文数据库词频统计.docxVIP