- 4
- 0
- 约1.13万字
- 约 23页
- 2026-04-29 发布于海南
- 举报
数字人文文本挖掘方法——基于2024年古籍全文数据库词频统计
语词的谱系:数字人文视域下古籍文本挖掘的方法论建构、实践与反思——基于2024年六大集成性古籍全文数据库的大规模词频统计与概念网络分析
摘要与关键词
本研究旨在系统考察数字人文方法在古籍文本研究中的应用效能与内在局限,并以大规模词频统计为基础,尝试提出一种融合定量模式识别与深度文化阐释的综合性分析路径。通过构建“数据源评估”、“多层级词频算法适配”、“历时分布映射”与“网络拓扑结构分析”四维方法论框架,对2024年度具有代表性和开放访问权限的中国古籍全文数据库(包括但不限于“中国基本古籍库”、“国学宝典”、“汉籍数字图书馆”、“中华经典古籍库”及两个区域性专题数据库)进行系统性数据采集与预处理,覆盖先秦至清末经史子集各部类共计约一百万卷(篇)数字化文本。研究首先对这些海量文本进行综合词频统计,识别出前一万个高频通用词及各部类特有的高频主题词。研究发现:第一,超高频词呈现显著的“功能词主导”特征,前一百高频词中虚词、专名等结构性词汇占比高达百分之八十六,而承载核心文化概念的“关键词”则分散在后续中、高频区间,其绝对频次虽然可观,但在庞大文本基数下相对占比极低,传统基于简单词云或孤立频数排序的方法效能有限。第二,词频的历时性波动呈现出复杂的“阶梯状”与“脉冲状”分布,仅以朝代为单位进行均质化统计会掩盖重大文本集群(如某部大型
您可能关注的文档
- 数字人文方法在古典文学研究中的应用边界研究——基于文本挖掘技术与传统阐释方法比较分析.docx
- 数字人文方法在古典文学研究中的应用路径——基于2024年古籍数据库词频统计分析.docx
- 数字人文方法在散文研究中的应用效果评估——基于2024年散文数据库文体特征分析.docx
- 数字人文方法在诗歌研究中的应用效果评估——基于2023年诗歌数据库韵律统计分析.docx
- 数字人文方法在诗歌研究中的应用效果评估——基于2024年诗歌数据库韵律统计分析.docx
- 数字人文方法在文学主题演变研究中的应用——基于主题建模技术与传统文学史方法比较.docx
- 数字人文方法在文学主题演变研究中的应用研究——基于主题建模技术与传统文学史方法比较.docx
- 数字人文技术在文学风格分析中的应用与限度——基于计算语言学与文学批评方法比较.docx
- 数字人文技术在文学风格分析中的应用与限度研究——基于计算语言学与文学批评方法比较.docx
- 数字人文视域下古典文学研究范式转型与方法创新——基于2024年大数据技术在文学研究中的应用实践探索.docx
原创力文档

文档评论(0)