CN110598065B 一种数据挖掘方法、装置和计算机可读存储介质 (腾讯云计算(北京)有限责任公司).docxVIP

  • 0
  • 0
  • 约2.97万字
  • 约 51页
  • 2026-01-20 发布于重庆
  • 举报

CN110598065B 一种数据挖掘方法、装置和计算机可读存储介质 (腾讯云计算(北京)有限责任公司).docx

(19)国家知识产权局

(12)发明专利

(10)授权公告号CN110598065B(45)授权公告日2025.07.11

(21)申请号201910801360.4

(22)申请日2019.08.28

(65)同一申请的已公布的文献号申请公布号CN110598065A

(43)申请公布日2019.12.20

(56)对比文件

CN109242106A,2019.01.18审查员尹泽辉

(73)专利权人腾讯云计算(北京)有限责任公司

地址100190北京市海淀区知春路49号3层

西部309

(72)发明人余莉萍石楷弘王吉陈志博

(74)专利代理机构深圳翼盛智成知识产权事务所(普通合伙)44300

专利代理师黄威

(51)Int.CI.

GO6F16/903(2019.01)

权利要求书2页说明书17页附图9页

(54)发明名称

一种数据挖掘方法、装置和计算机可读存储

介质

(57)摘要

CN110598065B本发明实施例公开了一种数据挖掘方法、装置和计算机可读存储介质;本发明实施例在对待处理数据集进行特征提取,以构造特征空间,在特征空间中提取节点特征,以生成待处理数据集的图数据,该图数据至少包括一个节点,在图数据中筛选出该节点对应的数据簇,计算数据簇的数据纯净度,得到数据簇的簇内纯度,当簇内纯度低于预设纯度阈值时,获取节点在待处理数据集中对应的数据,得到挖掘的数据;由于该方案不仅考察了数据簇内所有的特征信息,而且通过数据簇内的簇内纯度去评估坏档,进而进行坏档挖掘,降低了对特征表征的过渡依赖,可以更加

CN110598065B

对待处理数据集进行特征提取,以构

对待处理数据集进行特征提取,以构造特征空间

在特征空间中提取节点特征,以生成

待处理数据集的图数据,该图数据至

少包括一个节点

在图数据中筛选节点对应的数据簇

计算数据簇的数据纯净度,得到该数据簇的簇内纯度

当簇内纯度低于预设纯度阈值时,获

取节点在待处理数据集中对应的数据

,得到挖掘的数据

101

-102

103

104

105

CN110598065B权利要求书1/2页

2

1.一种数据挖掘方法,其特征在于,应用于电子设备,包括:

对待处理数据集进行特征提取,以构造特征空间,所述待处理数据集中数据的类型包括图像类型或文本类型;

在所述特征空间中提取节点特征,以生成所述待处理数据集的图数据,所述图数据至少包括一个节点;

在所述图数据中筛选出所述节点对应的数据簇,包括:在所述图数据中搜索所述节点对应的邻节点;在所述图数据中对所述节点和对应的所述邻节点进行聚类,得到所述节点的聚类图,所述邻节点包括与所述节点直接相邻的节点、与所述节点在所述图数据中相隔距离在预设距离阈值内的节点;在所述聚类图中生成所述节点的聚类子图,将所述聚类子图作为所述节点对应的数据簇;

计算所述数据簇的数据纯净度,得到所述数据簇的簇内纯度,包括:所述数据簇内每个所述节点将与其直接相连的所述邻节点发送的特征信息聚集起来进行特征信息的融合,得到所述数据簇内的数据信息;根据所述数据信息对所述数据簇内的数据进行分类;根据分类结果,计算所述数据簇的数据纯净度,得到所述数据簇的簇内纯度;

当所述节点对应的所述数据簇的所述簇内纯度低于预设簇内纯度阈值时,根据所述节点的所述聚类子图在所述聚类图中的位置,获取所述节点在待处理数据集中对应的数据,得到挖掘的数据,所述挖掘的数据为坏档,所述簇内纯度不低于所述预设簇内纯度阈值的所述节点对应的所述数据簇中不包含所述坏档,所述坏档为对应的所述数据簇内存在多个不同类别的数据。

2.根据权利要求1所述的数据挖掘方法,其特征在于,根据分类结果,计算所述数据簇的数据纯净度,得到所述数据簇的簇内纯度,包括:

根据分类结果,在所述数据信息中获取各个类别数据的数量和数据簇的数据总数量;在所述各个类别数据的数量中筛选数量最多的数据,以作为目标数据;

计算所述目标数据与所述数据簇的数据总数量的比值,得到所述数据簇的簇内纯度。

3.根据权利要求1所述的数据挖掘方法,其特征在于,采用训练后图识别模型对所述数据簇进行特征提取之前,还包括:

采集多个数据集样本,所述数据集样本包括已标注簇类纯度的数据簇;

采用预设图识别模型对所述数据集样本的簇类纯度进行预测,得到预测簇类纯度;

根据所述预测簇类纯度与已标注的簇类纯度对所述预设图识别模型进行收敛

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档