基于层次信息增强的中文语义错误识别模型.pdfVIP

基于层次信息增强的中文语义错误识别模型.pdf

JournalofComputerApplicationsISSN1001‐90812025‐12‐10

计算机应用,2025,45(12):3771-3778CODENJYIIDUhttp://www.joca.cn

文章编号：1001-9081（2025）12-3771-08DOI:10.11772/j.issn.1001-9081.2024111694

基于层次信息增强的中文语义错误识别模型

1，2，3，41，2，3，4*

张瑜琦，沙灜

（1.华中农业大学信息学院，武汉430070；2.农业农村部智慧养殖技术重点实验室（华中农业大学），武汉430070；

3.湖北省农业大数据工程技术研究中心（华中农业大学），武汉430070；

4.农业智能技术教育部工程研究中心（华中农业大学），武汉430070）

（∗通信作者电子邮箱shaying@mail.hzau.edu.cn）

摘要：中文语义错误不同于简单的拼写错误和语法错误，它们通常更加隐蔽和复杂。中文语义错误识别

（CSER）旨在判断中文句子是否包含语义错误，作为语义校对的前置任务，识别模型的性能对语义错误校对至关重

要。针对CSER模型在融合句法信息时忽视句法结构与上下文结构之间差异的问题，提出一种层次信息增强的图卷

积神经网络（HIE-GCN）模型，旨在将句法树中节点的层次信息嵌入上下文编码器，从而缩小句法结构与上下文结构

之间的差异。首先，采用遍历算法提取句法树中节点的层次信息；其次，将层次信息嵌入BERT（BidirectionalEncoder

RepresentationsfromTransformers）模型生成字符特征，而图卷积网络（GCN）将字符特征用于图上节点，并在图卷积计

算后得到整个句子的特征向量；最后，利用全连接层进行单分类错误识别或多分类错误识别。在FCGEC

（Fine-grainedcorpusforChineseGrammaticalErrorCorrection）和NaCGEC（NativeChineseGrammaticalErrorCorrection）

数据集上进行语义错误识别和校对的实验结果表明，在识别任务中，与基线模型相比，HIE-GCN模型在FCGEC数据

集的单分类错误识别中将准确率至少提高0.10个百分点，F1值至少提高0.13个百分点；在多分类错误识别中将准确

率至少提高1.05个百分点，F1值至少提高0.53个百分点；消融实验验证了层次信息嵌入的有效性；与GPT、Qwen等

多个大语言模型（LLM）相比，所提模型的整体识别性能更高。在校对实验中，与序列到序列的直接纠错模型相比，采

用识别-纠错二阶段流水线可将纠错精确率提高8.01个百分点，同时还发现，在LLMGLM4纠错过程中，向模型提示

句子错误类型可将纠错的精确率提高4.62个百分点。

关键词：自然语言处理；图卷积网络；中文语义错误识别；大语言模型；依存句法分析

中图分类号：TP391.1文献标志码：A

Chinesesemanticerrorrecognitionmodelbasedon

更多 >