基于Spark三比值和随机森林结合并行变压器故障诊断.docVIP

下载本文档

2
0
约7.15千字
约 15页
2018-08-28 发布于福建
举报
版权申诉

基于Spark三比值和随机森林结合并行变压器故障诊断.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于Spark三比值和随机森林结合并行变压器故障诊断

基于Spark三比值和随机森林结合并行变压器故障诊断　　摘要：随着智能化电网的建设过程，越来越多的电网系统监测数据被传回来在云平台上进行检测和诊断。针对在集群环境下，缺乏专有的变压器故障诊断模型；而随机森林在多分类问题中，准确率高，不容易出现过拟合但是特征最好离散等特点；结合变压器三比值法可以让连续的变压器油中溶解气体离散化，进而可以通过随机森林进行分类；而Spark环境可以提供一个并行的分布式的环境，和在内存上的计算可以加快运算的速度。基于Spark框架提出了三比值和随机森林结合的并行变压器故障诊断模型，并行的对变压器油中溶解气体数据集进行故障诊断，提高了变压器故障诊断的效率，有利于应对在极端情况下，可能面临的井喷式报警数据处理问题。　　关键词：变压器；故障诊断；随机森林；Spark；三比值法　　中图分类号：TP306+.3 文献标识码：A 文章编号：1009-3044（2017）27-0221-04 　　Abstract： With the construction of intelligent power grid， more and more monitoring data of power grid system is transmitted back to the cloud platform for detection and diagnosis. The fault diagnosis model of transformer in cluster environment is lacking. And the random forest in the multi-classification problem， the accuracy is high， it is not easy to have to fit but the characteristics are best to take discrete characteristics； Combined with the transformer three-ratio method， the data can be discretized and its characteristics are meaningful， which can satisfy the characteristics of random forest data. The spark environment can provide a distributed environment and computational speed in memory. The training model can be put on it to improve the speed of diagnosis， and to deal with the problem of blowout alarm data which may be faced in extreme cases. 　　Key word： Transformer； Fault diagnosis； Random Forest； Spark； Three-ratio method 　　1 概述　　在电力系统大数据环境的背景下，随着电力系统智能化的建设，越来越多的电力设备监测装置安装到电力系统的各个环节中，为了实时确保电力系统的运行状态，这些监测设备定时向数据管理中心发送设备检测数据，及时处理这些数据，从而判断电力系统设备的运行状况与健康状况，对电力系统具有重要的意义。其中包括变压器运行中油中溶解的各种气体的含量。这些状态监测数据能反映变压器的运行状况是否出现故障，以及出现故障的种类。由此也对变压器故障诊断的准确率和精确度提出了更高的要求。在电力系统大数据环境下，这些电力系统的状态监测数据有如下的特点。　　数据规模大，数据具有时效性、数据的价值密度低。故障数据较之于正常数据所占比例特别低。已有的单机故障诊断系统难以满足要求。在并行框架上进行大规模监测数据的存储，以及实时的故障诊断成为了研究热点。　　目前，大数据处理技术在智能电网中主要运用到大量数据的可视化，采集存储、数据挖掘等领域。对于海量数据处理分为流式处理和批处理两种方法。以批处理的方式处理数据对实时性没有要求，而对数据的准确性和全面性要求高。流处理的方式现只注重实时计算、及时反馈结果。　　Hadoop和Spark是当前最流行的大数据框架。Hadoop较Spark提出较早，它包括Hadoop的分布式文件系统（HDFS），数据分析框架（MapReduce）。智能电网在Hadoop框架上已经做了许多研究运用。文?I[1]电力系统用户用电大数据特点，基