CN112100332B 词嵌入表示学习方法及装置、文本召回方法及装置 (腾讯科技(深圳)有限公司).docxVIP

  • 0
  • 0
  • 约2.93万字
  • 约 44页
  • 2026-01-07 发布于重庆
  • 举报

CN112100332B 词嵌入表示学习方法及装置、文本召回方法及装置 (腾讯科技(深圳)有限公司).docx

(19)国家知识产权局

(12)发明专利

(10)授权公告号CN112100332B(45)授权公告日2025.07.01

(21)申请号202010961808.1

(22)申请日2020.09.14

(65)同一申请的已公布的文献号申请公布号CN112100332A

(43)申请公布日2020.12.18

(73)专利权人腾讯科技(深圳)有限公司

地址518057广东省深圳市南山区高新区

科技中一路腾讯大厦35层

(72)发明人张雨春翁泽峰翟彬旭张东于

范云霓

(74)专利代理机构深圳市联鼎知识产权代理有限公司44232

专利代理师叶虹

(51)Int.CI.

GO6F16/334(2025.01)

GO6F40/289(2020.01)审查员周庆成

权利要求书3页说明书15页附图6页

(54)发明名称

词嵌入表示学习方法及装置、文本召回方法

及装置

(57)摘要

CN112100332B本公开提供了一种词嵌入表示学习方法及装置、文本召回方法及装置,涉及人工智能领域。词嵌入表示学习方法包括:获取文本语料,对所述文本语料进行分词处理,并基于得到的分词和所述分词对应的发音信息构建图结构;以所述图结构中的各节点为初始节点,随机游走获取与所述初始节点对应的节点序列;根据所述节点序列对词嵌入表示模型进行训练以获取词嵌入查找表,并基于所述词嵌入查找表确定与所述文本语料对应的词嵌入表示。本公开能够根据分词和发音信息构建图,并基于图结构训练词嵌入,使得词形学接近的词语在词嵌入空间中具有相近的距离,避免了输入错误导致的召回文本错误的问题,提高了召回效率和召回质量,进而提升了用

CN112100332B

获取文本语料,对所述文本语料进行分词处理,并

获取文本语料,对所述文本语料进行分词处理,并

基于得到的分词和所述分词对应的发音信息构建图

结构

以所述图结构中的各节点为初始节点,随机游走获取与所述初始节点对应的节点序列

根据所述节点序列对词嵌入表示模型进行训练以获

取词嵌入查找表,并基于所述词嵌入查找表确定与

所述文本语料对应的词嵌入表示

S230

S220

CN112100332B权利要求书1/3页

2

1.一种词嵌入表示学习方法,其特征在于,包括:

获取文本语料,对所述文本语料进行分词处理;所述文本语料为中文文本,发音信息为所述中文文本经分词处理所得到的各分词中每个字对应的拼音;

以与所述中文文本对应的分词和所述拼音为节点,以所述分词、所述分词中的单字以及所述单字对应的拼音之间的关系为边,根据所述节点和所述边构建无向无环图;

按照各个节点对应的边的数量,将所述无向无环图中各个节点划分为高度节点和低度节点;

采用对边切分方式对所述无向无环图中的低度节点进行切分,并采用点切分方式对所述无向无环图中的高度节点进行切分,得到所述无向无环图的为多个子图,并对所述多个子图进行分别存储;

以所述无向无环图中的各节点为初始节点,随机游走获取与所述初始节点对应的节点

序列;

根据所述节点序列对词嵌入表示模型进行训练以获取词嵌入查找表;在词嵌入表示模型的每轮训练中,所述文本语料中的高频词语的处理结果是对多个子任务的处理结果进行整合得到的,所述多个子任务是对所述高频词语的处理任务进行划分得到的,每个子任务交由不同的机器同时执行;

获取基于所述无向无环图构建的词表,并根据所述词表获取所述文本语料中的分词所对应的编码;

根据所述编码在所述词嵌入查找表中确定与所述分词对应的词嵌入;

根据所有所述分词对应的词嵌入确定与所述文本语料对应的词嵌入表示。

2.根据权利要求1所述的方法,其特征在于,所述方法还包括:

在构建所述无向无环图时,根据预设规则对各所述边设置权重。

3.根据权利要求1所述的方法,其特征在于,所述边包括在拼音相同字不同以及拼音相近字相同的节点关系上建立的边。

4.根据权利要求1所述的方法,其特征在于,所述以所述图结构中的各节点为初始节点,随机游走获取与所述初始节点对应的节点序列,包括:

获取预设的第一参数和第二参数,根据当前节点、与所述当前节点相邻的历史节点和未来节点、所述第一参数和所述第二参数确定所述当前节点跳到所述历史节点以及所述当前节点跳到所述未来节点的游走概率;

根据所述游走概率确定游走方向,并基于所述游走方向确定所述节点序列。

5.根据权利要求1所述的方法,其特征在于,所述根据所述节点序列对词嵌入表示模型

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档