基于深度学习的文本校对方法研究.pdfVIP

  • 74
  • 0
  • 约6.58万字
  • 约 49页
  • 2020-12-19 发布于江苏
  • 举报
基于深度学习的文本校对方法研究 摘 要 随着互联网的飞速发展,网络上的文本数据量激增,同时也导致了文本质量 下降,传统的人工校对早已无法完成如此巨量的工作,文本自动校对技术应运而 生。该技术不仅能加快出版节奏,而且可以利用该技术在企业单位减少大量需要 保存的电子文档中的错误,同时在在教育教学方面也能辅助教师评阅试卷,发现 其中的拼写错误。 传统基于统计和规则的文本校对方法存在诸多问题。一方面规则的制定需要 丰富的经验,人力成本高,且这种基于流水线的模式,会由于分词产生的噪音, 很容易导致错误累积。另一方面,现有方法仅使用了字或词的特征信息,对于字、 词、拼音三种特征信息未进行有效的利用。 针对以上问题,本文提出一种基于深度学习的序列标注模型BLSTM-CRF, 无需进行人工干预,节省了人力成本,并采用字粒度的特征免去了分词引入的噪 音。此外,针对多特征未有效利用问题,对BLSTM-CRF 模型进行了改进,采用 了网格LSTM 和门控机制有效地对字、词、拼音三者进行了多特征融合。 本文 研究的主要内容主要分为两个方面: (1)本文提出了一种用于中文拼写检查的神经网络架构 BLSTM-CRF,即 双向长短时记忆网络结合条件随机场模型。它是真正的端到端模型,不依赖于特 定于任务的资源,特征工程或数据预处理;其次,通过采用字粒度的向量输入, 免去了分词噪音的引入。在新闻和小说两个数据集上的实验表明,模型性能 F1 值相较于基线模型在新闻和小说的测试集上都有较大提升。 (2 )本文提出了一种新颖的拼写错误检查模型 FL-LSTM-CRF ,该模型融 合了字、词、拼音三者的特征,充分利用潜在的信息。在 SIGHAN 数据集上的 实验结果证明了端到端框架在拼写错误检查的可行性,同时验证了字、词、拼音 三者融合的特征信息在检错任务上的有效性。在使用相同的外部资源的情况下, FL-LSTM-CRF 模型明显优于其他模型。 关键词:中文文本校对,深度学习,序列标注,多特征融合 I 目 录 摘 要 I ABSTRACT II 第一章 绪论 1 1.1 研究的背景和意义 1 1.2 研究现状2 1.3 研究内容4 1.4 文章组织结构6 第二章 相关技术概述8 2.1 文本校对概述8 2.2 基于统计和规则结合的文本校对方法8 2.2.1 基于N-gram 语言模型的方法8 2.2.2 基于散串的方法9 2.2.3 基于语义搭配的方法9 2.2.4 N-gram 和散串结合的文本查错方法 10 2.3 基于深度学习的文本校对方法 12 2.3.1 序列标注问题 12 2.3.2 词嵌入 13 2.3.3 长短时记忆网络 15 2.3.4 条件随机场 16 2.4 两类校对方法对比 17 2.5 本章小结 18 第三章 基于BLSTM-CRF 的字词查错方法19 3.1 传统中文字词错误校对存在问题 19 3.2 中文文本字词错误特征20 3.2.1 错误来源20 3.2.2 错误分类20 3.2.3 错误分布21 3.3 BLSTM-CRF 字词错误检查模型21 3.3.1 LSTM 单元22 3.3.2 双向LSTM 单元23 3.3.3 CRF 单元24 3.4 模型训练25 3.5 实验与分析26 3.5.1 实验数据26 3.5.2 参数设置26 3.5.3 评价指标27 3.5.4 实验结果28 3.6 本章小结29 第四章 基于多特征融合的字词查错方法30 4.1 引言30 4.2 相关研究31 4.3 模型32 4.3.1 Embedding 层33 4.3.2 LSTM 34

文档评论(0)

1亿VIP精品文档

相关文档