- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于聚类分析的离群检测方法在电网数据质量管理中的应用研究.doc
基于聚类分析的离群检测方法在电网数据质量管理中的应用研究 摘 要: 随着各种技术在电力企业信息系统数据质量检测中的应用,企业数据质量得到大幅度提升。然而,当前的数据质量检测方法一般只是针对数据缺失、乱码、特殊字符等浅表的显性数据质量问题提出了解决方案,对于没有明显业务规则、隐性的数据质量问题仍然缺少有效的技术检测手段。以广东电网公司生产设备台帐数据质量检测为例,提出了基于聚类分析的数据异常值样本离群检测技术,探索该技术在数据质量提升中的典型应用方法,为不断完善数据质量检测规则提供了技术支撑。 关键词: 数据质量; 聚类分析; 离群检测; 设备台帐; 异常值 中图分类号: TN915?34 文献标识码: A 文章编号: 1004?373X(2016)15?0137?03 Abstract: With the application of various techniques in information system data quality detection of power enterprise, the enterprise data quality is improved shapely. The current data quality detection methods only can provide the solutions for the obvious data quality problems, such as data missing, messy code, special character, and lack the effective technical detection means for the unobvious business rules and recessive data quality problems. In this paper, the production equipment account data quality detection of Guangdong Power Grid Corporation is taken as an example, and the sample outlier detection technology of data abnormal value based on cluster analysis is proposed. The typical application method of this technology in data quality promotion is explored to provide the technical support for the constant improvement of data quality detection rules. Keywords: data quality; cluster analysis; outlier detection; equipment account; abnormal value 0 引 言 近年来,随着信息化建设进程的加快和信息系统的长期运行,广东电网公司积累了大量在线数据,为业务指导和经营决策奠定了基础。为了提升信息系统数据质量,加速信息系统的实用化,广东电网公司建立了数据质量检测平台,平台运行后,数据质量的检测效率、检测覆盖面和准确率都得到大幅提升[1]。然而,当前的数据质量检测方法一般只是针对数据缺失、乱码、特殊字符等浅表的显性数据质量问题提出了解决方案,对于没有明显业务规则、隐性的数据质量问题仍然缺少有效的技术检测手段。如对于涉及复杂场景的潜在数据质量问题,如线路长度、设备电流值、缺陷类别等,校验规则比较宽泛,大多数情况只考虑单个字段,缺少对指标间关联规则的考虑,造成数据质量问题挖掘不全面、不到位。 基于聚类分析的离群检测数据挖掘方法能够根据数据支撑的业务目标,对海量数据进行快速、高效、准确的提取,有效挖掘出隐藏的离群数据点,分析其背后的原因,结合实际业务规则判定是否为坏数据,有针对性的进行处理,进而提高数据质量水平。本文将基于该方法在数据质量检测中的应用展开研究。 1 基于聚类分析的离群检测关键技术研究 离群点检测是数据挖掘技术的重要研究领域之一,用来发现数据明显偏离于其他数据,不满足数据的一般行为或模式的数据。离群点的挖掘方法很多,可分为基于统计的、基于深度的、基于聚类的、基于距离的和基于密度的分析方法[2?3]。本文主要研究基于聚类分析的离群检测方法。 聚类的思想主要是利用数据点和聚簇间的相互关系,通过把数据集分为多个不同的簇,使得聚簇内的数据点相似度最高,而不同聚簇间的差异度最大。主要算法[4?5]包括CLIQUE,CLA
您可能关注的文档
最近下载
- 浪涌(冲击)抗扰度试验报告模板.pdf VIP
- GAT669.1-2008通用技术要求091019.ppt VIP
- 长合变电站220kV间隔扩建.doc VIP
- 【干货450页】2021税收筹划案例手册.docx VIP
- DB41T 2486-2023 叉车维护保养与自行检查规范.pdf VIP
- 酒店运营标准指引.docx VIP
- 风险分析方法培训课件.ppt VIP
- Q∕CR 749.3-2020 铁路桥梁钢结构及构件保护涂装与涂料 第3部分:附属钢结构.pdf
- 成都四川师范大学附属实验学校初一新生分班(摸底)语文考试模拟试卷(10套试卷带答案解析).doc VIP
- 04DX101-1建筑电气常用数据.docx VIP
文档评论(0)