空间大数据挖掘与异常点分析.docVIP

下载本文档

8
0
约2.86千字
约 7页
2018-09-28 发布于福建
举报
版权申诉

空间大数据挖掘与异常点分析.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

空间大数据挖掘与异常点分析

空间大数据挖掘与异常点分析　　摘要：为了进一步研究空间数据，本文决定以pm2.5数据为例来进行处理。首先基于南京、扬州、无锡三个城市pm2.5数据的横向比较，可知2017年11月30号的异常点是由于空气湿度或节假日的影响。然后对影响空气质量的多个因素进行聚类，发现PM2.5与PM10，风速具有显著相关关系。使用时间序列模型ARIMA（2，1，0）对pm2.5数据作出了短期预测，预测结果与实际结果趋势相同，但不够精确，分析模型的不足，最终提出了改善方法。　　关键词：空间数据，异常点，聚类分析，ARIMA模型　　一、引言　　空间大气数据具有来源广，类型格式复杂且相互之间不兼容的特点。本文着重研究大气空间数据的挖掘和异常点分析以及后期的研究路径。　　二、数据清洗及异常点分析　　11.27-3.12期间（除春节假期外）我们统计了南京，扬州，无锡三个城市24小时的，3000多条空气指标数据。考虑到此次空气指标数据是由团队协作统计得来，数据记录习惯的差异使得整体数据的质量很难达到数据仓库的要求，因此首先要进行数据清洗。　　2.1空缺值的填充　　首先极大可能的填写空缺值，为了保证空缺值与其他数据之?g的联系，必须选择依靠现有的数据进行处理得到缺失值，是一种有用的背景知识，它使得原始数据可以在较高的、一般化的抽象层上进行处理，可以用最常出现的概念填充空缺值。如以南京环境监测站对南京空气污染物检测的数量为例，数据中PM2.5属性列中有一个空缺值，假设已知有三个模糊概念Low， medium， nigh。对于这三个概念分别计算己有数据的平均隶属函数值，然后我们选择medium进行空缺值填充。　　2.2 错误数据的筛选　　范围检验是数据清洗的最简单形式，它是指检验一个字段中的数据以保证它落在预期范围之内，通常是数字范围或日期范围。在气象数据中，有时会存在超标的数值，这些对于分析气象信息会起到误导的作用，因此针对这些数据通过有效值检验来清洗。例如，可以通过浓度分布分析来确定错误值，来确定需要删除记录的错误值。　　2.3 数据属性值的统一　　数据源来自于多个数据库，数据的格式，属性或维的命名都不一样，可能是由于表示、编码、比例的不同引起的。为了避免无法匹配与识别的问题，将不同存储格式的数据进行格式统一，最后将多组数据进行数据合并。　　2.4 PM2.5的浓度异常值分析　　根据该数据的趋势变化以及浓度值的分析，判断PM2.5在无锡地区的2017年12月4号和7号出现异常数据，出现异常峰值。而在2017年11月30号的南京出现异常负值，可能原因为PM2.5分析仪是采用微量振荡天平法测量，随着空气中湿度的增加，从某日凌晨开始，随着降雨量的逐渐增加，空气中颗粒物先逐渐降低，随着雨量进一步增加，环境空气中的颗粒物已经趋于较低水平，此时滤膜上水汽的挥发量远大于颗粒物浓度的增加量，导致测量值出现负数。　　在日常数据审核中，除了一些记录仪器的故障外还会存在某一天由于节假日影响和政府政策发生较大的变化而出现异常偏高的现象，因而该类数据在有效性审核中还不能予以剔除，应予以保留。　　三、聚类算法　　4.1聚类思想　　聚类分析主要是根据实体的特征对其进行聚类，将描述个体的数据集划分成一系列相互区分的组，使得属于同一类别的个体之间的差异尽可能小，不同类别的个体之间的差异性尽可能大，从而发现数据集的整个空间分布规律和典型模式。　　根据空间聚类采用的不同思想，空间聚类算法主要可以归纳为以下几种：基于划分的聚类算法、基于层次的聚类算法、基于密度的聚类算法、基于网格的聚类算法、基于模型的聚类算法以及其他形式的聚类算法。本篇主要以基于划分的聚类算法为主要研究方法。　　空间聚类的内部度量原则主要有两个：聚类内部距离和聚类间的距离。聚类内部距离是指聚类内部间的平均距离，它反映了聚类的紧凑性和聚类算法的有效性；而聚类间的距离是指两个聚类间所有会话的平均距离。对于良好的聚类算法来说，聚类内部距离应较小，聚类间的距离应较远。　　聚类间距离：假设n个空间对象被聚类为K个簇，定义聚类间距离为所有分中心到全域中心的距离之和：，式中，L表示聚类间距离，m为全部空间对象的均值，为簇所含空间对象的均值K为聚类个数及聚类区间。　　聚类内部距离：假设n个空间对象被聚类为K个簇，定义聚类内部距离为所有聚类内部距离的总和：其中D为内距离，p为任一空间研究对象，为簇C所含空间对象的均值。　　4.2 结果分析　　以最短距离法为例，对采集到的南京的空间数据做聚类分析，得到以下类谱图：　　当分为五类时，湿度与SO2显著相关，PM10和PM2.5显著相关，O3和NO2显著相关，CO，风速各为一类。可见聚类结果合理，因为PM2