基于BERT和多特征融合嵌入的中文拼写检查.pdfVIP

  • 3
  • 0
  • 约9.2万字
  • 约 9页
  • 2023-12-25 发布于福建
  • 举报

基于BERT和多特征融合嵌入的中文拼写检查.pdf

://

httwww.skx.com

pjj

:/

DOI10.11896skx.220100104

jj

基于BERT和多特征融合嵌入的中文拼写检查

,

刘哲1殷成凤1李天瑞12

西南交通大学计算机与人工智能学院成都

1611756

综合交通大数据应用技术国家工程实验室成都

2611756

()

liuzhe@m.swtu.edu.cn

yj

,.

摘要由于汉字的多样性和中文语义表达的复杂性中文拼写检查仍是一项重要且富有挑战性的任务现有的解决方法通

,

常存在无法深入挖掘文本语义的问题且在利用汉字独特的相似性特征时往往通过预先建立的外部资源或是启发式规则来学

.

习错误字符与正确字符之间的映射关系文中提出了一种融合汉字多特征嵌入的端到端中文拼写检查算法模型BFMBERT

().,

BiGRUGFusionMaskBERT该模型首先利用结合混淆集的预训练任务使BERT学习中文拼写错误知识然后使用双向

,、,

GRU网络捕获文本中每个字符错误的概率利用该概率计算汉字语义拼音和字形特征的融合嵌入表示最后将这种融合嵌入

(,).

输入到BERT中的掩码语言模型MaskLanuaeModelMLM以预测正确字符在SIGHAN2015基准数据集上对BFMG

gg

,,.

进行了评测取得了的值其性能优于其他基线模型

BERT82.2F1

:;;;;;

关键词中文拼写检查BERT文本校对掩码语言模型字词错误校对预训练模型

中图法分类号TP181

ChineseSellinCheckBasedonBERTandMultiGfeatureFusionEmbeddin

pgg

,

1112

,

LIUZheYINChenfenandLITianrui

gg

文档评论(0)

1亿VIP精品文档

相关文档