- 0
- 0
- 约2.9万字
- 约 46页
- 2026-01-23 发布于重庆
- 举报
(19)国家知识产权局
(12)发明专利
(10)授权公告号CN113704393B(45)授权公告日2025.07.15
(21)申请号202110393894.5
(22)申请日2021.04.13
(65)同一申请的已公布的文献号申请公布号CN113704393A
(43)申请公布日2021.11.26
(73)专利权人腾讯科技(深圳)有限公司
地址518057广东省深圳市南山区高新区
科技中一路腾讯大厦35层
(72)发明人林岳
GO6F40/289(2020.01)
GO6N3/0455(2023.01)
GO6N3/0464(2023.01)
GO6N3/0499(2023.01)
GO6N3/08(2023.01)
(56)对比文件
CN112364170A,2021.02.12CN107491531A,2017.12.19审查员何蒙蒙
(74)专利代理机构北京三高永信知识产权代理
有限责任公司11138专利代理师祝亚男
(51)Int.CI.
GO6F16/334(2025.01)
GO6F16/35(2025.01)权利要求书3页说明书15页附图7页
(54)发明名称
关键词提取方法、装置、设备及介质
(57)摘要
CN113704393B本申请公开了一种关键词提取方法、装置、设备及介质,涉及数据处理领域。该方法包括从多个评论文本中获取第一评论文本,所述第一评论文本的情感标签为第一情感标签;对所述第一评论文本进行分词,获取所述第一评论文本的特征词集合;根据所述特征词集合计算所述第一评论文本的信息熵集合,所述信息熵集合中的信息熵是根据所述特征词集合中的特征词计算获得的;根据所述信息熵集合,确定所述第一评论文本的关键词。本申请会获取评论文本的信息熵集合,并根据信息熵集合确定评论文本中的关键词,由于信息熵表示了评论文本之间的差异,通
CN113704393B
从多个评论文本中获取第一评论文本,第一评论文本的情感
从多个评论文本中获取第一评论文本,第一评论文本的情感标签为第一情感标签
对第一评论文本进行分词,获取第一评论文本的特征词集合
根据特征词集合计算第一评论文本的信息熵集合,信息熵集合中的信息熵是根据特征词集合中的特征词计算获得的
根据信息熵集合,确定第一评论文本的关键词
401
402
403
404
CN113704393B权利要求书1/3页
2
1.一种关键词提取方法,其特征在于,所述方法包括:
从多个评论文本中获取第一评论文本,所述第一评论文本的情感标签为第一情感标
签;
对所述第一评论文本进行分词,获取所述第一评论文本的特征词集合;
根据所述特征词集合计算所述第一评论文本的信息熵集合,所述信息熵集合中的信息熵是通过获取所述特征词集合中的特征词的情感概率,以及根据所述情感概率计算获得的,所述情感概率用于表示在评论文本出现所述特征词时,所述评论文本的情感标签是所述第一情感标签的概率;
根据所述信息熵集合,确定所述第一评论文本的关键词。
2.根据权利要求1所述的方法,其特征在于,所述根据所述特征词集合计算所述第一评论文本的信息熵集合,包括:
从所述特征词集合中随机确定第一特征词;
获取所述第一特征词的情感概率,所述第一特征词的情感概率用于表示在评论文本出现所述第一特征词时,所述评论文本的情感标签是所述第一情感标签的概率;
基于所述第一特征词的情感概率,计算所述第一特征词的信息熵;
重复上述三个步骤,直至获得所述特征词集合中所有特征词对应的信息熵,生成所述第一评论文本的信息熵集合。
3.根据权利要求2所述的方法,其特征在于,所述获取所述第一特征词的情感概率,包
括:
对所述多个评论文本进行分词,获取各个评论文本的特征词集合;
根据所述各个评论文本的特征词集合确定包含所述第一特征词的m个目标评论文本;获取所述m个目标评论文本对应的m个情感标签;
计算所述第一情感标签在所述m个情感标签中的占比,获取所述第一特征词的所述情感概率。
4.根据权利要求1至3任一所述的方法,其特征在于,所述信息熵集合包括至少两个信
息熵;
所述根据所述信
您可能关注的文档
- CN112837241B 建图重影去除方法、设备及存储介质 (贵州京邦达供应链科技有限公司).docx
- CN112840473B 形成有机-无机金属卤化物钙钛矿的晶体或多晶层的方法 (牛津光伏有限公司).docx
- CN112884665B 一种动画播放方法、装置、计算机设备及存储介质 (腾讯科技(深圳)有限公司).docx
- CN112907451B 图像处理方法、装置、计算机设备和存储介质 (腾讯科技(深圳)有限公司).docx
- CN112930701B 用于在功率受限的双连通性场景中维持长期演进话务的方法和装置 (高通股份有限公司).docx
- CN112951804B 包括划线的半导体装置及制造半导体装置的方法 (三星电子株式会社).docx
- CN112996558B 用于多通道同时大功率磁线圈驱动器的方法和装置 (约纳·佩莱德).docx
- CN113011206B 手持扫描仪及其扫描方法 (先临三维科技股份有限公司).docx
- CN113034348B 图像处理方法、装置、存储介质及设备 (北京字节跳动网络技术有限公司).docx
- CN113078153B 半导体器件及其形成方法 (台湾积体电路制造股份有限公司).docx
原创力文档

文档评论(0)