- 4
- 0
- 约1.56万字
- 约 14页
- 2023-04-23 发布于北京
- 举报
本发明属于脏数据检测与清理领域,涉及一种基于智慧数据平台脏数据清理方法,包括;本发明对原始数据进行检测,并对原始数据进行规范化;将规范化的原始数据进行Hashing处理,得到数据对应的hash数据;使用聚类分析选择hash数据中的最优质心,原始数据中包括已聚类数据、原始分割数据;使用恒等判定公式将已聚类数据与原始分割数据的交集进行恒等判定,寻找出缺失的或不需要的脏数据;对找出的脏数据基于Rider‑Firefly混合算法进行清理;本发明提出的算法在脏数据和干净数据之间的区分能力相对于传统算法具有
(19)中华人民共和国国家知识产权局
(12)发明专利申请
(10)申请公布号 CN 113988817 A
(43)申请公布日 2022.01.28
(21)申请号 202111330590.0 G06V 10/764 (2022.01)
原创力文档

文档评论(0)