基于云南省昭通市近三年空气质量预测分析.docxVIP

基于云南省昭通市近三年空气质量预测分析.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于云南省昭通市近三年空气质量预测分析 摘要:基于云南省昭通市近三年空气质量数据建立了多元线性回归、时间序列、随机森林、回归树预测模型,选择预测精度较高的随机森林、回归树模型构建随机森林-回归树组合模型,利用标准差法确定组合模型的权重,通过对昭通市2020年8月空气质量指数进行预测分析,发现组合模型的预测精度较单一模型的高,误差较低,因此该模型可广泛应用于空气质量的预测。 随着城市化建设的加速,大气污染严重,对空气质量的预测和评价愈显重要。目前在空气质量评价上主要采用空气质量指数(air quality index,AQI),AQI是以环境空气质量标准为基础,根据各种污染物、生活环境和生态的影响,将对空气污染物浓度进行综合监测的一系列数据化为单一的概念性数值的形式 1 方法及原理 1.1 多元线性回归 多元线性回归有广泛的应用,可以对不同变量之间的关系进行分析。Y表示因变量,对其产生影响的自变量表示为X ε为随机误差项,β 1.2 ARIMA(p,d,q)模型 ARIMA(p,d,q)模型为y 1.3 随机森林 随机森林在统计分析中有广泛应用,其分类器为{h(X,θ 1.4 回归树 分类和回归树(CART)算法是将样本集划分为两大部分,也就是对应着两个子集,在此过程中采用的是二分递归分割技术,此时各个非叶子节点中均有两种决策树方法。基于CART算法得到的决策树属于基本的二叉树结构。 回归树生成算法: x、y分别对应着输入、输出变量。基于启发式算法完成空间划分的过程,其中切分变量为s,并将其取值j(初始指标对应的具体数值)作为切分点,并定义两个区域: 针对最佳的切分点、切分变量进行确定,可以得到满足区间平方差最小的值a 然后对全部的输入变量进行遍历,获取到最佳的切分变量,对输入空间进行划分,可以得到如下两部分: 按照相同的划分方式继续针对各个区域进行划分,在达到结束条件时输出最终的结果,由此得到回归树。 1.5 模型评价指标 在模型评价过程中需要利用合适的评价指标,以下选用平均相对误差(MRE)、均方根误差(RMSE)两个指标,其公式如下: Y 2 数据来源 数据源于天气网中的云南省昭通市2018年1月1日至2020年8月31日AQI,共975个数据,对AQI的影响因素有多种类型,在收集资料时无法考虑所有因素,主要筛选了以下指标:AQI(Y),PM2.5(X1)、PM10(X2)、SO 3 预测模型的建立 3.1 多元线性回归 利用最小二乘法建立多元线性回归模型,同时需对参与的影响因素进行分析。结合之前的讨论,AQI与PM2.5,PM10,SO 从表1发现X3和X5不显著,而其余变量比较显著,通过逐步回归法将变量进行剔除,输出模型得到表2。 由此得多元线性回归方程: 从回归方程中发现AQI与PM2.5,PM10,NO 将预测值与2020年8月2日至31日的空气质量实际数据进行比较,二者分别用实线、虚线表示,真实值与预测值的拟合图见图1。发现预测的AQI波动大,结果误差大,有可能是因为影响因素的多样性和某些因子的不可测性,使得回归分析在某些情况下受到限制,真实值与预测值的拟合不太好,但总体趋势变化相近,预测结果的平均相对误差为9.83%、均方根误差为5.02。 3.2 时间序列 绘制出昭通市2018年1月1日至2020年8月31日逐日AQI时间序列,可知并不存在显著的特征,因此可以将其认为是一个平稳序列,接着通过自相关图进行分析。见图2。自相关图尽管并未控制在2倍标准差以内,但是保持了一定的波动性,该特征与平稳时间序列的随机性特征是一致的。 根据纯随机性检验得到LB检验统计量的P=2.2e-16(0.05)比较小,据此可以推断属于非白噪声序列。图3偏相关图显示拖尾,图2自相关图未快速趋于0,则需进一步差分处理,差分后自相关图显示拖尾,可以尝试拟合ARIMA模型。研究发现ARIMA(4,1,7)模型的赤道信息准则(AIC)、贝叶斯准则(BIC)最低,具体数值为7 364.51、7 363.11。残差检验结果显示P=0.956 80.05,可将残差序列作为白噪声序列,由此验证了该拟合模型的应用效果。 ARIMA模型对AQI预测结果见图4,平均相对误差为2.20%、均方根误差14.66。该模型预测的AQI难以达到较高的精度,原因可能是模型没有抓住原始数据“季节性”的特点,且实际中有很多因素都会影响到AQI,包括天气条件变化等,特别是这些不确定性因素产生的影响具有随机性,最终影响了模型的拟合精度。 3.3 随机森林 在随机森林建模过程中,利用R语言中的Random Forest程序包,模型如下:r_model=random Forest,(aqi~.,data=dat

文档评论(0)

lmzwkyc + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档