高校大数据挑战赛优秀论文A题论文220404.pdfVIP

下载本文档

0
0
约5.61万字
约 35页
2026-02-10 发布于甘肃
举报

高校大数据挑战赛优秀论文A题论文220404.pdf

所在组别参赛编号

2022年第二届中国高校大数据挑战赛

本科Bdc220404

基于树模型和分层抽样的机器故障诊断研究

摘要

本文建立树分类模型，面对不均衡的数据样本，利用分层抽样和K折交叉

验证得出较准确的分类预测，并得出各类故障的合适的指标及其特征属性，进

行了相关的量化分析。

针对问题一，首先观察数据，发现无缺失值，有异常值，同时对训练的特

征进行例如对机器质量等级使用one-hot编码的数据预处理，同时利用随机

抽样和随机森林对附件中异常值进行修正。针对选取指标的问题，我们提出了

2个基本衍生特征,以扩充特征集，后进行正态分布检验、Spreaman相关性分

析，将原指标和衍生特征输入决策树,基于Gini系数得出每种故障类型的合适

指标，得到不同故障的分类特征等。

针对问题二，基于得到各类故障的分类的合适指标生成11个交互衍生特

征，建立XGBoost故障诊断模型，将交互衍生特征、基本衍生特征、原始指标

投入训练来分类判别机械设备是否发生故障，以分层抽样和K折交叉验证为评

价方式，面对不均衡样本，评价指标为ROC_AUC和F1得分，本文模型的ROC_AUC

得分接近0.98,f_1得分接近0.88,分类效果较好。

针对问题三，本文选用随机森林、Logistic、SVM、K最近邻4种学习模

型分别进行训练和预测，对于数据不平衡的多分类问题，仍以分层抽样交叉验

证为评价方式，评价指标为f1_weighted即F1得分的宏加权，得出最好的分

类器模型为随机森林，其f1_weighted的平均值为0.932，并将每种分类器的

分类结果进行对比，得到分类结果均相同。

针对问题四，基于问题二、三中的XGBoost故障诊断模型和具体故障诊断

模型对附件中样本进行故障与否以及类别的预测，得到分类结果。

针对问题五，基于问题一中决策树自主学习得到的各故障的分类合适指标，

对各故障类型的可视化决策树得到的主要成因和特征属性分析，得到TWF的特

征属性为使用时长、HDF故障特征属性为温度差、PWF故障特征属性为功率

和转速、OSF故障特征属性为使用时长、扭矩，并对主要成因进行量化分析。

最后对模型的优缺点进行了客观评价和改进，进行了灵敏度分析，并将模

型进行了向产品质量等级分类等各领域的分类问题进行了推广。

关键词：XGBoost、决策树、随机森林、ROC_AUC、F1、分层抽样

一、问题提出与重述

1.1问题背景

制造业作为国民经济的主体，近年来不断攀上新的高度，与中国经济一起

腾飞。现代制造业的整个生产运作系统都处于高速、相互连接、相互制约的状

态,而机械设备则在制造生产的各个环节扮演着关键角色。设备故障的突然发

生,不仅会增加企业的维护成本,而且会严重影响企业的生产效率,使企业

蒙受巨大损失。因此,及时诊断出机器故障变得十分重要。在实际生产中，若

能根据机械设备的使用情况、使用环境和工作强度等指标，提前准确的预测机

器潜在的故障风险、故障类型，精准地进行检修维护，维持机械设备稳定运转，

不但能够确保整体工业环境运行具备稳定性，也能切实帮助企业提高经济效益。

1.2问题重述

问题提供了机械设备的使用情况、使用环境和工作强度等数据，要求自主

查阅资料，选择合适的方法完成以下问题：

问题1：（1）对数据进行预处理。

（2）选择合适的指标用于预测机械设备故障并说明原因。

问题2：（1）设计开发模型用于判别机械设备是否发生故障。

（2）自主选取评价方式和评价指标评估模型表现。

问题3：（1）设计判别设备故障类别(TWF/HDF/PWF/OSF/RNF)的模型。

（2）自主选取评价方式和评价指标评估模型表现。

问题4：（1）利用问题2和问题3开发的模型预测“forecast.xlsx”中是

高校大数据挑战赛优秀论文A题论文220404.pdfVIP

高校大数据挑战赛优秀论文A题论文220404.pdf

您可能关注的文档

最近下载

文档评论（0）

1亿VIP精品文档

相关文档