基于层次信息增强的中文语义错误识别模型.pdfVIP

  • 0
  • 0
  • 约5.15万字
  • 约 8页
  • 2026-03-10 发布于江西
  • 举报

基于层次信息增强的中文语义错误识别模型.pdf

JournalofComputerApplicationsISSN1001‐90812025‐12‐10

计算机应用,2025,45(12):3771-3778CODENJYIIDUhttp://www.joca.cn

文章编号:1001-9081(2025)12-3771-08DOI:10.11772/j.issn.1001-9081.2024111694

基于层次信息增强的中文语义错误识别模型

1,2,3,41,2,3,4*

张瑜琦,沙灜

(1.华中农业大学信息学院,武汉430070;2.农业农村部智慧养殖技术重点实验室(华中农业大学),武汉430070;

3.湖北省农业大数据工程技术研究中心(华中农业大学),武汉430070;

4.农业智能技术教育部工程研究中心(华中农业大学),武汉430070)

(∗通信作者电子邮箱shaying@mail.hzau.edu.cn)

摘要:中文语义错误不同于简单的拼写错误和语法错误,它们通常更加隐蔽和复杂。中文语义错误识别

(CSER)旨在判断中文句子是否包含语义错误,作为语义校对的前置任务,识别模型的性能对语义错误校对至关重

要。针对CSER模型在融合句法信息时忽视句法结构与上下文结构之间差异的问题,提出一种层次信息增强的图卷

积神经网络(HIE-GCN)模型,旨在将句法树中节点的层次信息嵌入上下文编码器,从而缩小句法结构与上下文结构

之间的差异。首先,采用遍历算法提取句法树中节点的层次信息;其次,将层次信息嵌入BERT(BidirectionalEncoder

RepresentationsfromTransformers)模型生成字符特征,而图卷积网络(GCN)将字符特征用于图上节点,并在图卷积计

算后得到整个句子的特征向量;最后,利用全连接层进行单分类错误识别或多分类错误识别。在FCGEC

(Fine-grainedcorpusforChineseGrammaticalErrorCorrection)和NaCGEC(NativeChineseGrammaticalErrorCorrection)

数据集上进行语义错误识别和校对的实验结果表明,在识别任务中,与基线模型相比,HIE-GCN模型在FCGEC数据

集的单分类错误识别中将准确率至少提高0.10个百分点,F1值至少提高0.13个百分点;在多分类错误识别中将准确

率至少提高1.05个百分点,F1值至少提高0.53个百分点;消融实验验证了层次信息嵌入的有效性;与GPT、Qwen等

多个大语言模型(LLM)相比,所提模型的整体识别性能更高。在校对实验中,与序列到序列的直接纠错模型相比,采

用识别-纠错二阶段流水线可将纠错精确率提高8.01个百分点,同时还发现,在LLMGLM4纠错过程中,向模型提示

句子错误类型可将纠错的精确率提高4.62个百分点。

关键词:自然语言处理;图卷积网络;中文语义错误识别;大语言模型;依存句法分析

中图分类号:TP391.1文献标志码:A

Chinesesemanticerrorrecognitionmodelbasedon

文档评论(0)

1亿VIP精品文档

相关文档