高校大数据挑战赛优秀论文A230119.pdfVIP

下载本文档

1
0
约2.34万字
约 25页
2026-02-08 发布于甘肃
举报

高校大数据挑战赛优秀论文A230119.pdf

所在组别参赛编号

2023年第三届中国高校大数据挑战赛

研究生bdc230119

中文文本纠错算法优化研究

摘要

随着国际交流的多元化，中文变得越来越具有吸引力。由于中文文本的语序与其他

语序差别较大，许多中文学习者很难掌握中文的语序规则。因此，中文文本的词语语序

纠错变得越来越重要。中文语法中文文本错误纠错通常分为两类：一类为拼写错误纠错，

另一类为语法错误纠错并包含词语冗余、词语缺失、词语选择和词语语序（乱序）。本文

针对中文文本的错误纠错进行研究，从经典的神经网络入手解决中文文本错误的问题。

针对问题1，首先分析数据集“train_large_v2.json”，其次构建数据集预处理的流程：

语料清洗、去停用词、繁转简体、切分字词、生成标签。最后采用词向量表示和序列到

序列的文本纠错的相关技术，为后续词语语序纠错模型及其改进打下了基础。

针对问题2，构建了基于经典神经网络模型的词语语序纠错模型。鉴于人工提取特

征过程中易造成信息丢失，而经典神经网络模型在特征提取中取得的优异性能，本文分

别采用Bi-GRU、CNN和Transformer经典神经网络用于序列到序列的词语语序纠错任

务，并详细的分析模型的结构及原理。

针对问题3，在问题2所构建模型的基础上，首先在阿里云服务器上进行实验，基

于Python3.6和Torch1.4.0的Linux环境中进行模型的训练，其次对基于经典神经的词

语语序纠错模型相关参数进行设定，最终纠正验证集中的中文错误，具体结果在附录所

示。

针对问题4，采用字级（CharacterLevel）评价标准，基于整个测试集所有汉字的错

误检测或纠正结果确定。由于本文中文拼写纠错模型集检错与纠错为一体，因此根据具

体实验设置了一些特定指标，分别为：误报率/错误识别率（FPR），检测准确率（DA），

检测精确率（DP），检测召回率（DR），检测F值（DF），纠错准确率（CA），纠错精确

率（CP），纠错召回率（CR）和纠错F值（CF）。其次引入了动态规划提高模型纠错效

率，使用平滑技术应对数据稀疏问题。最后结果表明本文提出的基于Transformer模型

实验结果接近平均水平，误报率/错误识别率FPR为0.1218较低，表现较好，其余指标

也皆优于其他模型。

针对问题5，通过对前几个问题的分析总结，采用K-means算法进行聚类，验证集

输入句子数为969条，含有错误的句子数480条，别字错误280个，冗余错误59个，缺

失错误88个，乱序错误11个，语义重复73个，句式杂糅27个。结果显示中文文本中

每类错误的主要原因为：别字错误排名第一（35%），词语缺失错误排第二（32%），语

义重复排第三（20.5%）。

本文最后讨论了模型的优缺点，并对模型的应用与推广做了进一步的思考。

关键词：文本纠错、词语语序纠错、神经网络、K-means算法

1.问题重述

1.1问题背景

中文文本纠错是一种有效的自动检查和纠正方法，其目标是在降低人工验证代价的

前提下，有效地提高了文本的正确性，具有广泛的应用前景。比如，在搜索引擎中，当

使用者输入的文字经常会出现错字、缺词、多词的时候，对输入的文字进行分析，可以

对文字中的错误进行自动的修正，并对使用者进行反馈，这样的搜索结果会更加满足使

用者的需要。在汉语教学中，文本纠错是一项重要的工作，它是一种基于自动校对的方

法。在手语识别系统中，可利用文本纠错技术对连续手语识别的文本结果进行规范；在

语音识别中，通常会将文本纠错技术加入到语音识别中，以提高识别的准确性和增强用

户的使用感受。除此之外，在智能问答、智能审稿、文本编辑等领域也有广泛的应用。

由此可见，文本纠错是一种无处不在、不可缺少的技术。

1.2问题描述

针对于问题一，使用附件中的数据，进行数据预处理，选择合适的指标用于中文文

本纠错，并说明选择指标的原因。

针对

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

高校大数据挑战赛优秀论文A230119.pdfVIP