- 0
- 0
- 约3.67万字
- 约 28页
- 2026-01-06 发布于山西
- 举报
仅使用子词信息表示单词
AlexiaWenxinXu计算机科学
系alexiaxu@
连续词表示是许多自然语言处理任务中的关键特征。Bojanowski等人[2]
模型考虑了词的结构,并将词表示为字符n‑gram的集合。该模型可能
存在两个限制:1)使用n‑gram时,词向量在表示一个词时可能是冗余的。此
外,词向量的存在可能会n‑gram向量的充分训练;2)每个字符n‑gram
可能出现在多个词中,并且它们在不同词中的权重可能不同。为了解决这些问题,
我们提出了一种模型,该模型将一个词表示为n‑gram注意力的和,而不使用词
向量。我们的词表示在无监督任务中优于[2]中的模型,在文本分类中与其表现
相当。我们还展示了训练良好的模型如何对词进行分段并判断n‑gram的重要性。
1引言
连续的词表示是自然语言处理中许多任务的关键特征,例如文本分类、机器翻译
和信息检索。回到1990年代,词表示已从统计语言建模[12,13]中得出。,
Mikolov等人[1]提出了一种跳字模型,作为从大量非结构化文本数据中高效学习
词向量表示的方法。
以前的大多数模型在表示每个词时都不利用词的结构,而是单独使用一个向量
表示。Bojanowski等人[2]提出了一种学习字
最近下载
- 关于XX医院“十五五”时期人才队伍建设发展规划(2026-2030年).docx
- 2026年商丘职业技术学院单招职业适应性考试备考试题及答案解析.docx VIP
- 逝去武林(李仲轩).doc VIP
- 6s管理培训课件.pptx VIP
- 2026年中央安全生产考核巡查明查暗访应知应会管理手册.docx VIP
- 仁爱英语八年级下册单词表全.pdf VIP
- 2025年贵州省遵义市赤水市辅警考试真题附答案解析.docx VIP
- JT_T 860.5-2014沥青混合料改性添加剂 第5部分:天然沥青.pdf
- 生态水文学导论.ppt VIP
- DL∕T5861-2023电化学储能电站初步设计内容深度规定.pdf VIP
原创力文档

文档评论(0)