基于文本挖掘的输变电设备疑似家族性缺陷预警分析.docx

基于文本挖掘的输变电设备疑似家族性缺陷预警分析.docx

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

?

?

基于文本挖掘的输变电设备疑似家族性缺陷预警分析

?

?

杨维张弦程飞飞

摘要:目前,针对输变电设备家族性缺陷的认定主要通过专业人员通过对设备进行试验、解体分析,周期较长。本文通过收集设备缺陷情况,采用大数据分析技术,提取设备缺陷信息特征,并通过计算设备缺陷信息相似性,利用Kohonen神经网络聚类算法实现对设备缺陷信息类别打标签,基于同类厂家设备缺陷信息进行分组统计分析、预警,实现输变电设备疑似家族性缺陷的自动辨识、预警。

关键词:输变电设备;文本分析;家族性缺陷

0引言

输变电设备家族性缺陷来源主要包括:国家电网公司(以下称“公司”)下达的有关设备的家族事故通报、公司下达的设备家族性缺陷、各省市公司提供的家族性缺陷等。针对家族性缺陷的认定往往基于复杂的机理,目前电力变压器家族性缺陷识别主要有专家识别、聚类识别等方法,周期较长,严重依赖人工投入,效率低下且缺陷识别遗漏,不利于家族性缺陷的认定及处理。[2-3]

本文阐述的输变电设备疑似家族性缺陷分析模型,通过收集设备缺陷信息,采用大数据分析算法技术,对海量缺陷描述分词处理,提取设备重要缺陷特征,同时,基于凝聚Kohonen神经网络聚类算法,实现输变电设备同类型缺陷标识,进一步利用多维分析为设备家族缺陷辨识、认定提供辅助依据。

1输变电设备疑似家族性缺陷定义

不同电压等级的变压器由于对设备材料、工艺等要求不同,通常电压等级高的设备,技术要求越高,故障率较低。实际工程中,一般通过设备生产厂家、设备型号、生产批次等因素与故障的关联性,反映其家族性缺陷。运行经验表明,设备生产厂家、型号、批次等因素与家族性缺陷相关主要有以下特点:①同厂家、同型号或同批次产品故障率高于正常设备;②同厂家、同型号或同批次产品故障分布较为平均,不集中于少数几台设备[1]。

2模型输入

梳理输变电设备疑似家族性缺陷分析模型所需数据,包括设备台账设备缺陷、生产厂家、设备分类等信息,数据来源系统为PMS2.0系统,数据需求表如表1所示。同时,对主变压器台账表、设备缺陷表、生产厂家表、设备分类表等涉及的设备名称、类型、缺陷部位等字段进行梳理,梳理各属性间的关联关系。

3模型设计

3.1数据准备

针对模型输入环节梳理的涉及到的各表之前的关联关系,按照pms2.0系统数据库业务表逻辑模型进行关联合并,形成缺陷分析模型数据分析宽表,作为输变电设备疑似家族性缺陷分析模型的输入。

3.2数据清洗

数据清洗是针对梳理形成的缺陷分析宽表中涉及到的含有噪声的数据,通过采用标准化、规范化、降维等数据清理的方式,提升数据分析质量。

数值化:由于设备原始数据形式各自不同,需对其进行标准化操作,经典的处理方式:对字符串取值,按照ANSI码值求和得到字符串的值,并映射到一个区间。

标准化:在数据分析的时候,计算相关性或者方差等相关的指标时,有必要对整体数据进行归一化处理,映射到一个指定的数值区间。较常用一个做法是:min-max标准化。

完整性:对缺失的数据主要有添补或删除等方法,如果数据量较大,而数据缺失量较少,对于缺失数据,删除其所在行即可;但如果缺失值所占样本数比例较高,则采用数据填充的方式来添补缺失数据。

3.3模型构建

3.3.1分析方法介绍

3.3.1.1文本挖掘算法

文本挖掘是指对文本的表示及其特征项的选取,它把从文本中抽取出的特征词进行量化来表示文本信息。文本挖掘算法涉及分析和停用词定义、词频因子TF、逆文档频率因子(IDF)、TF*IDF框架、特征词提取以及文本相似度计算等技术。

分析和停用词

每篇文档的主体内容可以由最能代表它内容的特征词表示,但是对于中文文档来说,首先需要把句子分成一个个单词。

词频因子TF

TF计算因子代表了词频,即一个单词在文档中出现的次数,一般来说,Tf值越大,越能代表文档所反映的内容,那么应该给于这个单词更大的权值。

逆文档频率因子(IDF)

IDF的计算公式为:IDFk=log(N/nk),其中N代表文档集合(包含不相關和相关文档的总和)中总共有多少个文档,而nk代表特征单词k在其中多少个文档中出现过,即文档频率。由公式可知,文档频率nk越高,其IDF值越小,即越多的文档包含某个单词,那么其IDF权值越小。IDF反映了一个特征词在整个文档集合中的分布情况,特征词出现在其中的文档数目越多,IDF值越低。

TF*IDF框架

TF*IDF框架是结合了词频因子和逆文档频率因子的计算框架,一般是将两者相乘作为特征权值,特征权值越大,则越可能是好的关键词,即:Weight(word)=TF*IDF。可以选取权重值最大的几个单词(比如10个或20个)作为特征词,用由这几个特征词的权重组成的向量来表示这篇文档。

3.3.1.2Kohonen神经网络聚类算法

Koh

文档评论(0)

133****5313 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档