高校大数据挑战赛优秀论文A230119.pdfVIP

  • 1
  • 0
  • 约2.34万字
  • 约 25页
  • 2026-02-08 发布于甘肃
  • 举报

所在组别参赛编号

2023年第三届中国高校大数据挑战赛

研究生bdc230119

中文文本纠错算法优化研究

摘要

随着国际交流的多元化,中文变得越来越具有吸引力。由于中文文本的语序与其他

语序差别较大,许多中文学习者很难掌握中文的语序规则。因此,中文文本的词语语序

纠错变得越来越重要。中文语法中文文本错误纠错通常分为两类:一类为拼写错误纠错,

另一类为语法错误纠错并包含词语冗余、词语缺失、词语选择和词语语序(乱序)。本文

针对中文文本的错误纠错进行研究,从经典的神经网络入手解决中文文本错误的问题。

针对问题1,首先分析数据集“train_large_v2.json”,其次构建数据集预处理的流程:

语料清洗、去停用词、繁转简体、切分字词、生成标签。最后采用词向量表示和序列到

序列的文本纠错的相关技术,为后续词语语序纠错模型及其改进打下了基础。

针对问题2,构建了基于经典神经网络模型的词语语序纠错模型。鉴于人工提取特

征过程中易造成信息丢失,而经典神经网络模型在特征提取中取得的优异性能,本文分

别采用Bi-GRU、CNN和Transformer经典神经网络用于序列到序列的词语语序纠错任

务,并详细的分析模型的结构及原理。

针对问题3,在问题2所构建模型的基础上,首先在阿里云服务器上进行实验,基

于Python3.6和Torch1.4.0的Linux环境中进行模型的训练,其次对基于经典神经的词

语语序纠错模型相关参数进行设定,最终纠正验证集中的中文错误,具体结果在附录所

示。

针对问题4,采用字级(CharacterLevel)评价标准,基于整个测试集所有汉字的错

误检测或纠正结果确定。由于本文中文拼写纠错模型集检错与纠错为一体,因此根据具

体实验设置了一些特定指标,分别为:误报率/错误识别率(FPR),检测准确率(DA),

检测精确率(DP),检测召回率(DR),检测F值(DF),纠错准确率(CA),纠错精确

率(CP),纠错召回率(CR)和纠错F值(CF)。其次引入了动态规划提高模型纠错效

率,使用平滑技术应对数据稀疏问题。最后结果表明本文提出的基于Transformer模型

实验结果接近平均水平,误报率/错误识别率FPR为0.1218较低,表现较好,其余指标

也皆优于其他模型。

针对问题5,通过对前几个问题的分析总结,采用K-means算法进行聚类,验证集

输入句子数为969条,含有错误的句子数480条,别字错误280个,冗余错误59个,缺

失错误88个,乱序错误11个,语义重复73个,句式杂糅27个。结果显示中文文本中

每类错误的主要原因为:别字错误排名第一(35%),词语缺失错误排第二(32%),语

义重复排第三(20.5%)。

本文最后讨论了模型的优缺点,并对模型的应用与推广做了进一步的思考。

关键词:文本纠错、词语语序纠错、神经网络、K-means算法

1.问题重述

1.1问题背景

中文文本纠错是一种有效的自动检查和纠正方法,其目标是在降低人工验证代价的

前提下,有效地提高了文本的正确性,具有广泛的应用前景。比如,在搜索引擎中,当

使用者输入的文字经常会出现错字、缺词、多词的时候,对输入的文字进行分析,可以

对文字中的错误进行自动的修正,并对使用者进行反馈,这样的搜索结果会更加满足使

用者的需要。在汉语教学中,文本纠错是一项重要的工作,它是一种基于自动校对的方

法。在手语识别系统中,可利用文本纠错技术对连续手语识别的文本结果进行规范;在

语音识别中,通常会将文本纠错技术加入到语音识别中,以提高识别的准确性和增强用

户的使用感受。除此之外,在智能问答、智能审稿、文本编辑等领域也有广泛的应用。

由此可见,文本纠错是一种无处不在、不可缺少的技术。

1.2问题描述

针对于问题一,使用附件中的数据,进行数据预处理,选择合适的指标用于中文文

本纠错,并说明选择指标的原因。

针对

文档评论(0)

1亿VIP精品文档

相关文档