CN113704393B 关键词提取方法、装置、设备及介质 (腾讯科技(深圳)有限公司).docxVIP

  • 0
  • 0
  • 约2.9万字
  • 约 46页
  • 2026-01-23 发布于重庆
  • 举报

CN113704393B 关键词提取方法、装置、设备及介质 (腾讯科技(深圳)有限公司).docx

(19)国家知识产权局

(12)发明专利

(10)授权公告号CN113704393B(45)授权公告日2025.07.15

(21)申请号202110393894.5

(22)申请日2021.04.13

(65)同一申请的已公布的文献号申请公布号CN113704393A

(43)申请公布日2021.11.26

(73)专利权人腾讯科技(深圳)有限公司

地址518057广东省深圳市南山区高新区

科技中一路腾讯大厦35层

(72)发明人林岳

GO6F40/289(2020.01)

GO6N3/0455(2023.01)

GO6N3/0464(2023.01)

GO6N3/0499(2023.01)

GO6N3/08(2023.01)

(56)对比文件

CN112364170A,2021.02.12CN107491531A,2017.12.19审查员何蒙蒙

(74)专利代理机构北京三高永信知识产权代理

有限责任公司11138专利代理师祝亚男

(51)Int.CI.

GO6F16/334(2025.01)

GO6F16/35(2025.01)权利要求书3页说明书15页附图7页

(54)发明名称

关键词提取方法、装置、设备及介质

(57)摘要

CN113704393B本申请公开了一种关键词提取方法、装置、设备及介质,涉及数据处理领域。该方法包括从多个评论文本中获取第一评论文本,所述第一评论文本的情感标签为第一情感标签;对所述第一评论文本进行分词,获取所述第一评论文本的特征词集合;根据所述特征词集合计算所述第一评论文本的信息熵集合,所述信息熵集合中的信息熵是根据所述特征词集合中的特征词计算获得的;根据所述信息熵集合,确定所述第一评论文本的关键词。本申请会获取评论文本的信息熵集合,并根据信息熵集合确定评论文本中的关键词,由于信息熵表示了评论文本之间的差异,通

CN113704393B

从多个评论文本中获取第一评论文本,第一评论文本的情感

从多个评论文本中获取第一评论文本,第一评论文本的情感标签为第一情感标签

对第一评论文本进行分词,获取第一评论文本的特征词集合

根据特征词集合计算第一评论文本的信息熵集合,信息熵集合中的信息熵是根据特征词集合中的特征词计算获得的

根据信息熵集合,确定第一评论文本的关键词

401

402

403

404

CN113704393B权利要求书1/3页

2

1.一种关键词提取方法,其特征在于,所述方法包括:

从多个评论文本中获取第一评论文本,所述第一评论文本的情感标签为第一情感标

签;

对所述第一评论文本进行分词,获取所述第一评论文本的特征词集合;

根据所述特征词集合计算所述第一评论文本的信息熵集合,所述信息熵集合中的信息熵是通过获取所述特征词集合中的特征词的情感概率,以及根据所述情感概率计算获得的,所述情感概率用于表示在评论文本出现所述特征词时,所述评论文本的情感标签是所述第一情感标签的概率;

根据所述信息熵集合,确定所述第一评论文本的关键词。

2.根据权利要求1所述的方法,其特征在于,所述根据所述特征词集合计算所述第一评论文本的信息熵集合,包括:

从所述特征词集合中随机确定第一特征词;

获取所述第一特征词的情感概率,所述第一特征词的情感概率用于表示在评论文本出现所述第一特征词时,所述评论文本的情感标签是所述第一情感标签的概率;

基于所述第一特征词的情感概率,计算所述第一特征词的信息熵;

重复上述三个步骤,直至获得所述特征词集合中所有特征词对应的信息熵,生成所述第一评论文本的信息熵集合。

3.根据权利要求2所述的方法,其特征在于,所述获取所述第一特征词的情感概率,包

括:

对所述多个评论文本进行分词,获取各个评论文本的特征词集合;

根据所述各个评论文本的特征词集合确定包含所述第一特征词的m个目标评论文本;获取所述m个目标评论文本对应的m个情感标签;

计算所述第一情感标签在所述m个情感标签中的占比,获取所述第一特征词的所述情感概率。

4.根据权利要求1至3任一所述的方法,其特征在于,所述信息熵集合包括至少两个信

息熵;

所述根据所述信

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档