高校大数据挑战赛优秀论文A题论文220404.pdfVIP

  • 0
  • 0
  • 约5.61万字
  • 约 35页
  • 2026-02-10 发布于甘肃
  • 举报

高校大数据挑战赛优秀论文A题论文220404.pdf

所在组别参赛编号

2022年第二届中国高校大数据挑战赛

本科Bdc220404

基于树模型和分层抽样的机器故障诊断研究

摘要

本文建立树分类模型,面对不均衡的数据样本,利用分层抽样和K折交叉

验证得出较准确的分类预测,并得出各类故障的合适的指标及其特征属性,进

行了相关的量化分析。

针对问题一,首先观察数据,发现无缺失值,有异常值,同时对训练的特

征进行例如对机器质量等级使用one-hot编码的数据预处理,同时利用随机

抽样和随机森林对附件中异常值进行修正。针对选取指标的问题,我们提出了

2个基本衍生特征,以扩充特征集,后进行正态分布检验、Spreaman相关性分

析,将原指标和衍生特征输入决策树,基于Gini系数得出每种故障类型的合适

指标,得到不同故障的分类特征等。

针对问题二,基于得到各类故障的分类的合适指标生成11个交互衍生特

征,建立XGBoost故障诊断模型,将交互衍生特征、基本衍生特征、原始指标

投入训练来分类判别机械设备是否发生故障,以分层抽样和K折交叉验证为评

价方式,面对不均衡样本,评价指标为ROC_AUC和F1得分,本文模型的ROC_AUC

得分接近0.98,f_1得分接近0.88,分类效果较好。

针对问题三,本文选用随机森林、Logistic、SVM、K最近邻4种学习模

型分别进行训练和预测,对于数据不平衡的多分类问题,仍以分层抽样交叉验

证为评价方式,评价指标为f1_weighted即F1得分的宏加权,得出最好的分

类器模型为随机森林,其f1_weighted的平均值为0.932,并将每种分类器的

分类结果进行对比,得到分类结果均相同。

针对问题四,基于问题二、三中的XGBoost故障诊断模型和具体故障诊断

模型对附件中样本进行故障与否以及类别的预测,得到分类结果。

针对问题五,基于问题一中决策树自主学习得到的各故障的分类合适指标,

对各故障类型的可视化决策树得到的主要成因和特征属性分析,得到TWF的特

征属性为使用时长、HDF故障特征属性为温度差、PWF故障特征属性为功率

和转速、OSF故障特征属性为使用时长、扭矩,并对主要成因进行量化分析。

最后对模型的优缺点进行了客观评价和改进,进行了灵敏度分析,并将模

型进行了向产品质量等级分类等各领域的分类问题进行了推广。

关键词:XGBoost、决策树、随机森林、ROC_AUC、F1、分层抽样

1

一、问题提出与重述

1.1问题背景

制造业作为国民经济的主体,近年来不断攀上新的高度,与中国经济一起

腾飞。现代制造业的整个生产运作系统都处于高速、相互连接、相互制约的状

态,而机械设备则在制造生产的各个环节扮演着关键角色。设备故障的突然发

生,不仅会增加企业的维护成本,而且会严重影响企业的生产效率,使企业

蒙受巨大损失。因此,及时诊断出机器故障变得十分重要。在实际生产中,若

能根据机械设备的使用情况、使用环境和工作强度等指标,提前准确的预测机

器潜在的故障风险、故障类型,精准地进行检修维护,维持机械设备稳定运转,

不但能够确保整体工业环境运行具备稳定性,也能切实帮助企业提高经济效益。

1.2问题重述

问题提供了机械设备的使用情况、使用环境和工作强度等数据,要求自主

查阅资料,选择合适的方法完成以下问题:

问题1:(1)对数据进行预处理。

(2)选择合适的指标用于预测机械设备故障并说明原因。

问题2:(1)设计开发模型用于判别机械设备是否发生故障。

(2)自主选取评价方式和评价指标评估模型表现。

问题3:(1)设计判别设备故障类别(TWF/HDF/PWF/OSF/RNF)的模型。

(2)自主选取评价方式和评价指标评估模型表现。

问题4:(1)利用问题2和问题3开发的模型预测“forecast.xlsx”中是

否发生

文档评论(0)

1亿VIP精品文档

相关文档