- 0
- 0
- 约2.97万字
- 约 51页
- 2026-01-20 发布于重庆
- 举报
(19)国家知识产权局
(12)发明专利
(10)授权公告号CN110598065B(45)授权公告日2025.07.11
(21)申请号201910801360.4
(22)申请日2019.08.28
(65)同一申请的已公布的文献号申请公布号CN110598065A
(43)申请公布日2019.12.20
(56)对比文件
CN109242106A,2019.01.18审查员尹泽辉
(73)专利权人腾讯云计算(北京)有限责任公司
地址100190北京市海淀区知春路49号3层
西部309
(72)发明人余莉萍石楷弘王吉陈志博
(74)专利代理机构深圳翼盛智成知识产权事务所(普通合伙)44300
专利代理师黄威
(51)Int.CI.
GO6F16/903(2019.01)
权利要求书2页说明书17页附图9页
(54)发明名称
一种数据挖掘方法、装置和计算机可读存储
介质
(57)摘要
CN110598065B本发明实施例公开了一种数据挖掘方法、装置和计算机可读存储介质;本发明实施例在对待处理数据集进行特征提取,以构造特征空间,在特征空间中提取节点特征,以生成待处理数据集的图数据,该图数据至少包括一个节点,在图数据中筛选出该节点对应的数据簇,计算数据簇的数据纯净度,得到数据簇的簇内纯度,当簇内纯度低于预设纯度阈值时,获取节点在待处理数据集中对应的数据,得到挖掘的数据;由于该方案不仅考察了数据簇内所有的特征信息,而且通过数据簇内的簇内纯度去评估坏档,进而进行坏档挖掘,降低了对特征表征的过渡依赖,可以更加
CN110598065B
对待处理数据集进行特征提取,以构
对待处理数据集进行特征提取,以构造特征空间
在特征空间中提取节点特征,以生成
待处理数据集的图数据,该图数据至
少包括一个节点
在图数据中筛选节点对应的数据簇
计算数据簇的数据纯净度,得到该数据簇的簇内纯度
当簇内纯度低于预设纯度阈值时,获
取节点在待处理数据集中对应的数据
,得到挖掘的数据
101
-102
103
104
105
CN110598065B权利要求书1/2页
2
1.一种数据挖掘方法,其特征在于,应用于电子设备,包括:
对待处理数据集进行特征提取,以构造特征空间,所述待处理数据集中数据的类型包括图像类型或文本类型;
在所述特征空间中提取节点特征,以生成所述待处理数据集的图数据,所述图数据至少包括一个节点;
在所述图数据中筛选出所述节点对应的数据簇,包括:在所述图数据中搜索所述节点对应的邻节点;在所述图数据中对所述节点和对应的所述邻节点进行聚类,得到所述节点的聚类图,所述邻节点包括与所述节点直接相邻的节点、与所述节点在所述图数据中相隔距离在预设距离阈值内的节点;在所述聚类图中生成所述节点的聚类子图,将所述聚类子图作为所述节点对应的数据簇;
计算所述数据簇的数据纯净度,得到所述数据簇的簇内纯度,包括:所述数据簇内每个所述节点将与其直接相连的所述邻节点发送的特征信息聚集起来进行特征信息的融合,得到所述数据簇内的数据信息;根据所述数据信息对所述数据簇内的数据进行分类;根据分类结果,计算所述数据簇的数据纯净度,得到所述数据簇的簇内纯度;
当所述节点对应的所述数据簇的所述簇内纯度低于预设簇内纯度阈值时,根据所述节点的所述聚类子图在所述聚类图中的位置,获取所述节点在待处理数据集中对应的数据,得到挖掘的数据,所述挖掘的数据为坏档,所述簇内纯度不低于所述预设簇内纯度阈值的所述节点对应的所述数据簇中不包含所述坏档,所述坏档为对应的所述数据簇内存在多个不同类别的数据。
2.根据权利要求1所述的数据挖掘方法,其特征在于,根据分类结果,计算所述数据簇的数据纯净度,得到所述数据簇的簇内纯度,包括:
根据分类结果,在所述数据信息中获取各个类别数据的数量和数据簇的数据总数量;在所述各个类别数据的数量中筛选数量最多的数据,以作为目标数据;
计算所述目标数据与所述数据簇的数据总数量的比值,得到所述数据簇的簇内纯度。
3.根据权利要求1所述的数据挖掘方法,其特征在于,采用训练后图识别模型对所述数据簇进行特征提取之前,还包括:
采集多个数据集样本,所述数据集样本包括已标注簇类纯度的数据簇;
采用预设图识别模型对所述数据集样本的簇类纯度进行预测,得到预测簇类纯度;
根据所述预测簇类纯度与已标注的簇类纯度对所述预设图识别模型进行收敛
您可能关注的文档
- CN110144804B 一种工字形钢-混凝土组合梁次应力调整装置及其调整方法 (上海市政工程设计研究总院(集团)有限公司).docx
- CN110704784B web页面截屏方法、装置、设备及计算机可读存储介质 (深圳前海微众银行股份有限公司).docx
- CN110859392B 一种自动洗头机及其工作方法 (广州芊亮科技有限公司).docx
- CN111124791B 一种系统测试方法及装置 (深圳前海微众银行股份有限公司).docx
- CN111174694B 一种激光干涉位移测量装置及其使用方法 (山西大威激光科技有限公司).docx
- CN111213990B 发爪及其制造方法 (同兴塑胶五金(深圳)有限公司).docx
- CN111231321B 三维打印设备及其打印方法 (珠海天威增材有限公司).docx
- CN111263030B 摄像装置及其清洁控制方法 (北京地平线机器人技术研发有限公司).docx
- CN111442920B 一种液压复轨器试验系统及试验方法 (中铁检验认证中心有限公司).docx
- CN111559971B 一种由烯烃与碘及二甲基亚砜构建碘代烯基硫醚的方法 (新疆普禾粟新型环保材料有限公司).docx
- 中国国家标准 GB/Z 41305.6-2026环境条件 电子设备振动和冲击 第6部分:利用螺旋桨式飞机运输.pdf
- 《GB/T 46969-2025中国图书馆机读规范数据格式》.pdf
- 《GB/T 12903-2025个体防护装备术语》.pdf
- 2025至2030中国负载测试工具行业细分市场及应用领域与趋势展望研究报告.docx
- 2025至2030中国钨(VI)氟化物气体市场竞争格局及未来需求趋势分析报告.docx
- 2025至2030中国医用隔离膜产品行业调研及市场前景预测评估报告.docx
- 2025至2030中国铜材市场经营模式分析及竞争趋势预测报告.docx
- 2025至2030中国氙气试验箱行业调研及市场前景预测评估报告.docx
- 2025-2030中国PDLC智能调光膜市场产销需求与竞争前景分析研究报告.docx
- 2025至2030中国电子稳压器行业市场深度研究与战略咨询分析报告.docx
最近下载
- 一种棋类教学展示用面板.pdf VIP
- 《支气管哮喘哮喘》课件.ppt VIP
- 2024年茶评员高级技师(一级)职业鉴定理论考试题库(含答案).docx VIP
- 信息科技大单元教学设计之七年级第三单元便捷的互联网服务.pdf VIP
- 浙江杭州市临安区中医院招聘笔试备考试题及答案解析.docx VIP
- 2024年茶评员技师(二级)职业鉴定理论考试题库资料(含答案).pdf VIP
- 山西省办理《出生医学证明》授权委托书.docx VIP
- 2025年杭州市临安区中医院医共体招聘合同制员工11人笔试备考试题及答案解析.docx VIP
- 2026年云南省昆明市“三诊一模”高考物理模拟试卷(一)(含答案).pdf VIP
- 天融信防火墙NGFW4000配置手册簿.pdf VIP
原创力文档

文档评论(0)