高校大数据挑战赛优秀论文A题论文220214.pdfVIP

  • 0
  • 0
  • 约4.76万字
  • 约 35页
  • 2026-02-10 发布于甘肃
  • 举报

高校大数据挑战赛优秀论文A题论文220214.pdf

所在组别参赛编号

2022年第二届中国高校大数据挑战赛

本科组bdc220214

基于随机森林的机械设备故障预测与机理研究

摘要

在工业生产中,机械设备是否稳定工作密切决定着产品的生产效率和企业的经济

效益,对其故障进行诊断与预测并及时进行维护更换是至关重要的问题。本文通过选

取影响设备故障的指标,建立预测机器是否故障及其具体故障类型的模型,并实现对

各影响因素的量化分析,挖掘五类故障的潜在的内部机理。

针对任务一,首先以数据中唯一的统一规范代码为作为机器标识。将机器三个质

量等级、五种故障类型重新编码数字化。剔除发生故障的机器中存在的两组Normal类

型数据是异常值。随后对指标变量进行相关性分析,得到机器温度与室温相关系数为

0.86,因此引入二者做差的新变量温差。再根据转速扭矩的电机学公式,得到功率指

标。经过正态检验后对以上八个指标与是否发生故障进行单因素方差检验,得到全部

方差分析结果P值均<0.1,说明统计结果存在较为显著的差异。因此,选取三个质量

等级、温差、转速、扭矩、功率和使用时长八个指标用于后续机械设备故障的预测。

针对任务二,首先建立朴素贝叶斯判别模型,但由于数据样本分布不均衡的特征,

因此选取基于决策树学习器的CatBoost、XGBoost以及随机森林算法分别建立模型,

通过混淆矩阵并考虑指标的稳定性和解释性,本文选择F1Score值、AUC值以及描

述实际分类与预测分类相关系数的MCC值作为判别模型的评价指标,得到随机森林

模型的分类效果最好,其MCC值为0.96,使用该模型用于后续是否发生故障的预测。

针对任务三,在前面任务基础上,继续使用上述四个分类模型,对train.xlsx数据

集按照五种故障类型划分五次,每次以一种故障类型样本作为正例,所有其他类作为

反例来训练四个模型。并仍然使用任务二的三个指标,评价发现随机森林模型最优,

且四个模型对于TWF和RNF故障类型的判别MCC值均为0或十分接近0,认为这

两种故障类型使用模型的预测效果与随机预测的结果不相上下。

针对任务四,使用任务三建立的模型,以train.xlsx为训练集,forecast.xlsx为预

测集,得到机器所属的HDF、PWF、OSF以及Normal类型。并由于TWF和RNF两

种故障类型的特殊性,根据两种类型在train.xlsx中所占的比例,对预测集数据中的数

据进行分析计算,估计预测集数据中存在4台或5台发生TWF的机器以及0个或1

个发生RNF的机器。

针对任务五,本文首先通过箱型图对数据可视化,对于5种故障类型中个别指标

离群的数据进行去除,并得到其分布情况。随后通过Shapley值分别计算对5种故障

类型特征边际贡献最大的一个或几个特征,结合根据目标变量的分布情况计算出的基

值,最终得出五种故障类型的成因及其存在的规则。

最后,对模型的优缺点进行了评价,并提出了改进方法与推广,除了机械故障的

预测维护方面,对医疗疾病诊断、电力网络故障预测等领域也提出了一定的参考。

关键词:单因素方差分析随机森林Shapley特征量化故障预测

1

一、任务重述

1.1任务背景

机械设备是经济主体制造业中必不可少的核心角色。在实际的工业生产中,由于

不可避免的磨损、老化等问题,机械设备的运转会产生许多不同类别的故障,导致设

备失去某些精度或性能,甚至不能正常运行,从而使得设备效率降低或中断生产。对

于企业来说,如果能够分析与故障相关的因素,根据机械设备的使用情况来预测潜在

的故障风险,对相关设备进行修护更换,则将大大提高工业环境运行的稳定性,进而

提高企业的经济效益。

现有某企业机械设备的使用情况及故障发生情况的数据,每行包括了不同设备在

企业中的编号、统一规范代码、质量等级、所处厂房的室温、设备工作时的机器温度、

转速、扭矩、机器运转时长,以及是否发生故障和具体的

文档评论(0)

1亿VIP精品文档

相关文档