- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
不一致性检验法对细颗粒物监测数据中异常大值的检验.doc
不一致性检验法对细颗粒物监测数据中异常大值的检验
摘要:根据目前国内关于细颗粒物监测数据质量控制方面研究很少的现状,使用Barnett总结出的正态样本不一致性检验法以及Verma模拟出的超大样本临界值,对可吸入颗粒物小时监测数据进行了异常值检验。所用数据为环保部发布的可吸入颗粒物小时监测数据,数据时长为一年半左右,结果表明:各种检验法中以N1和N4为代表的偏差/尺度型统计量和平方和型统计量较适合PM2.5监测数据的异常值检验;N1检验法比N4检验法更不容易受临界值插值误差的影响。
关键词:PM2.5;小时监测数据;异常值检验;不一致性检验
中图分类号:X831
文献标识码:A文章编号2016
1引言
在诸多空气污染物中,细颗粒物(PM2.5)因其直径甚微,吸入后可直接进入肺部,对人类身体健康造成较大威胁,近年来受到社会各界的广泛关注。目前我国已在多数城市设立了PM10和PM2.5的监测站点,并计划将监测网络覆盖至所有地级以上城市,监测方式由过去的人工称重测量(振荡天平法)逐渐演变为现在的自动监测(β射线法)[1]。然而,我国目前的监测网络还不够完善,数据积累时长较短,站点少且分布不均匀,数据质量较差。在监测过程中,由于受仪器故障、人为测量失误、恶劣天气、数据传输故障等因素影响,监测数据会出现异常值,往往表现为异常大值、负值,或数值异常起伏、长时间平缓监测结果[2]或PM2.5浓度大于PM10[3],若在分析过程中不加以仔细甄别,势必会对研究结果造成较大影响,甚至得出错误的结论。
在统计学领域,异常值的检验始终是一个重要而复杂的问题。Bendre给出了指数分布样本中屏蔽效应(masking effect)的范例,其中屏蔽效应是指异常值检验中常常发生的一种因为有其他异常值存在而导致某些异常值无法被识别的现象[4]。关于正态样本异常点的研究成果最为详尽,如Barnett在处理符合正态分布的样本时,认为明显偏离样本分布特征的值是异常值,检验这些异常值的方法被称为不一致性检验(discordancy test)[5]。为了拓展检验法的应用范围,Verma利用蒙特卡洛方法对15种不一致性检验法(以N1-N15指代)在7个显著水平下(α=0.3,0.2,0.1,0.05,0.02,0.01,0.005)的临界值表,以及临界值随样本量n变化的插值公式,将检验法的应用范围扩大到容量最多为30000的超大样本,极大地拓展了检验法的应用范围[6~10]。
由于PM2.5小时监测数据样本容量很大,许多只适用于小样本的异常值检验法难以应用于长时段的监测数据,而Verma的工作刚好拓展了不一致性检验的应用范围,使其可以应用于最多长达3年左右的小时监测数据时间序列。针对目前国内细颗粒物监测数据质量较差、关于异常值检验方面研究较少的现状,以Verma改进的正态样本不一致性检验方法为基础,通过对比选出最适合的PM2.5小时监测数据特征的检验方法,主要检验数据中存在的异常大值错误数据。
2数据来源和方法
2.1资料
选用数据为中国环境保护部公布的PM2.5和PM10小时监测数据,共有363个城市的1575个国家空气质量自动监测站点,数据收集起止时间为2013年11月至2015年5月,其中有两段较长时段的数据因网络故障没有收集(2013年11月26日12时至2013年12月5日15时,2015年2月7日11时至2015年3月2日6时),作为缺测时段处理。因PM10缺测率较高,仅对PM2.5监测数据进行异常值检验,而将PM10数据作为异常值人工检视的参考数据。
2.2方法
Barnett总结归纳了正态样本的15个不一致性检验方法,由于各检验法的统计量构造形式不同,将其分为5类,分别为:差值差值/尺度统计量(excess/spread statistics),范围/尺度统计量(range/spread statistics),偏差/尺度统计量(deviation/spread statistics),平方和统计量(sums of squares statistics),和高阶矩统计量(high-order moment statistics)。由于相同类别检验法的统计量只有细微差别,故检验结果也十分接近,为方便起见,只从5类统计量中各选择1,2种有代表性的方法进行检验,详情见表1[5,6,8]。
设{Xn}=x1,x2,…,xn为某站的PM2.5监测时间序列,以N1检验法为例说明检验流程:对{Xn}取自然对数得{Yn}={ln(Xn)},其次序统计量为y(1),y(2),…,y(n),按附录中表A1给出的插值公式计算出显著水平α=0.01时
原创力文档


文档评论(0)