一种基于跨语言数据增强的分词方法及装置.pdfVIP

  • 0
  • 0
  • 约2.39万字
  • 约 20页
  • 2023-06-06 发布于四川
  • 举报

一种基于跨语言数据增强的分词方法及装置.pdf

本申请实施例公开了一种基于跨语言数据增强的分词方法及装置。本申请实施例提供的技术方案通过采集高资源语言数据处理得到分词语料,采集低资源语言数据获取候选分词,并根据从高资源语言数据处获得的分词语料对候选分词进行甄选,选择与分词语料匹配度高的作为低资源语言数据的分词语料,并根据低资源分词语料进行分词模型的训练,可以实现对低资源语言数据基于模型自动输出分词候选结果,结合分词候选结果与高资源语言数据的分词语料的匹配度进行选取分词结果,通过使用高资源语言的语料对低资源语言的模型训练数据进行自动扩充和验证,

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 CN 112765977 A (43)申请公布日 2021.05.07 (21)申请号 202110034450.2 (22)申请日 2021.01.11 (71)申请人 百果园技术(新加坡)有限公司

文档评论(0)

1亿VIP精品文档

相关文档