基于BERTopic主题建模的“Assessing Writing”研究趋势演化分析.pdfVIP

  • 0
  • 0
  • 约2.32万字
  • 约 9页
  • 2026-01-08 发布于江西
  • 举报

基于BERTopic主题建模的“Assessing Writing”研究趋势演化分析.pdf

第46卷第4期河南科技大学学报(自然科学版)Vol.46No.4

2025年8月JournalofHenanUniversityofScienceandTechnology(NaturalScience)Aug.2025

----

文章编号2025DOI:10.15926/j.cnki.iss2025.04.011

基于BERTopic主题建模的“AssessingWriting”

研究趋势演化分析

abc

李锦焱,张丹,高慧敏

(河南科技大学a.国际教育学院;b.外国语学院;c.数学与统计学院,河南洛阳471023)

摘要:通过深入挖掘期刊研究主题与预测学术发展趋势,研究人员能够更精准地把握学科方向,紧跟前沿动

态。然而,期刊摘要作为短文本,其结构化特点、高维稀疏的向量表示、语义结构复杂性以及数据噪声等因素,

对传统主题建模方法构成了严峻挑战。针对这一问题,提出了一种基于BERTopic的主题演化分析模型。模

型融合了预训练语言模型在语义表征方面的优势与层次化聚类算法的结构建模能力,同时重构词项加权策

略,引入词频的次线性变换机制以优化传统词权计算方法,从而有效削弱高频词的干扰,突出对区分主题具有

关键意义的词项,显著提升了模型的主题区分度和语义表征能力。以“AssessingWriting”期刊为研究对象,围

绕不同时期写作评估领域的研究成果开展实证分析。通过系统梳理各阶段的研究主题与发展方向,挖掘其动态

演化规律。实验结果表明,能够准确捕捉写作评估领域的研究热点变化,清晰揭示其发展脉络,在处理期刊摘要

等短文本数据时展现出良好的实用性与有效性,为相关领域的学术研究和趋势预测提供了可靠的技术支撑。

关键词:主题建模;BERTopic;语义结构;主题表征;次线性变换

中图分类号:TP391.7文献标志码:A

0引言

“AssessingWriting”是写作评估领域中极具影响力的学术期刊,其内容涵盖了写作评估的理论、方法

和实践应用,代表了该领域的最新研究动态和学术趋势。通过对该期刊的研究,可以全面把握写作评估领

域的学术发展轨迹及其演化特征。挖掘“AssessingWriting”期刊的主题和关键词,分析数据中反映的问题,

可以揭示写作评估领域在不同国家和地区的研究进展与共性问题,从而增加研究的学术价值和适用性。

随着数据密集型时代的到来,数据规模、结构复杂性与处理时效性要求显著提升,传统的数据处理

与分析方法已无法满足实际应用需求。因此,文本挖掘技术在从非结构化文本中提取潜在知识与有价

值信息方面发挥着日益重要的作用。主题模型(TopicModel)是自然语言处理领域极具影响力且高效

[1]

的方法之一,在文本挖掘以及理解用户需求方面发挥着至关重要的作用。它通过无监督学习挖掘文

档中潜在的语义信息,揭示文档、主题和单词之间的关系,进而识别和抽取潜在主题。主题模型的起源

可以追溯到1990年,文献[2]提出的(latentsemanticanalysis,LSA)模型突破传统词频统计方法的局限

性,首次将“语义”概念引入文本分析领域,为后续主题模型的发展奠定理论基础。在LSA模型的基础

上结合概率论方法,文献[3]提出了概率潜在语义分析模型(probabilisticlatentsemanticanalysis,

PLSA)。文献[4]在贝叶斯框架下,基于PLSA构建出具有完整概率解释力的潜在狄利克雷分配模型

--

(latentdirichletallocation,LDA),该模型是文档主题词语的三层贝叶

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档