基于子词信息词表示优化模型研究.pdfVIP

  • 0
  • 0
  • 约3.67万字
  • 约 28页
  • 2026-01-06 发布于山西
  • 举报

仅使用子词信息表示单词

AlexiaWenxinXu计算机科学

系alexiaxu@

连续词表示是许多自然语言处理任务中的关键特征。Bojanowski等人[2]

模型考虑了词的结构,并将词表示为字符n‑gram的集合。该模型可能

存在两个限制:1)使用n‑gram时,词向量在表示一个词时可能是冗余的。此

外,词向量的存在可能会n‑gram向量的充分训练;2)每个字符n‑gram

可能出现在多个词中,并且它们在不同词中的权重可能不同。为了解决这些问题,

我们提出了一种模型,该模型将一个词表示为n‑gram注意力的和,而不使用词

向量。我们的词表示在无监督任务中优于[2]中的模型,在文本分类中与其表现

相当。我们还展示了训练良好的模型如何对词进行分段并判断n‑gram的重要性。

1引言

连续的词表示是自然语言处理中许多任务的关键特征,例如文本分类、机器翻译

和信息检索。回到1990年代,词表示已从统计语言建模[12,13]中得出。,

Mikolov等人[1]提出了一种跳字模型,作为从大量非结构化文本数据中高效学习

词向量表示的方法。

以前的大多数模型在表示每个词时都不利用词的结构,而是单独使用一个向量

表示。Bojanowski等人[2]提出了一种学习字

文档评论(0)

1亿VIP精品文档

相关文档