- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大数据在环境空气质量监测预报预警体系中应用
大数据在环境空气质量监测预报预警体系中应用
摘 要:随着工业化的发展,我国污染排放呈现高度集中的态势,城市空气污染和区域性污染问题日益突出,其中雾霾正演变成为我国城市大气中主要污染之一,引起了普通民众和科学界的广泛关注,空气质量已成为政府部门和社会各界关注的焦点。本文提出了利用先进的大数据和云计算平台,对空气监测数据进行数据挖掘和分析,通过输入的污染物排放源和气象场等数据,模拟污染物在大气中的生成、转化、扩散和沉降等复杂过程,得出区域内污染物的时空分布、大气污染物输送与沉降规律等。本文研究内容对空气质量的预测,污染源的扩散状况等方面具有一定的实际应用价值。
关键词:大数据,空气质量监测,预报预警
中图分类号:TE08 文献标识码: A
1、引言
空气污染是指一些危害人体健康及周边环境的物质对大气层所造成的污染。大气污染可以使某个或多个环境要素发生变化,使生态环境受到冲击或失去平衡。随着我国经济和社会的高速发展,城市一体化进程的加快,工业规模的扩大,特别是煤和石油的大量使用,颗粒物、二氧化硫、二氧化氮等大量有害物质被排放到大气中,空气污染问题变得日益严重,已经直接影响到了生态环境、经济发展和人类的身体健康。作为当前全球最为关注的环境问题之一,空气污染不仅是相关领域的研究热点,同时也受到整个社会群体的普遍关注。空气质量已成为评价一个地区生活品质以及舒适度的重要因素[1]。 但是目前国内外关于空气污染物的时空分布特征与预测,由此造成的经济损失以及对居民的健康影响还缺乏系统的研究[2]。
大数据能够有效地处理海量数据,包括大规模并行处理数据库、分布式文件系统、数据挖掘、云计算平台、分布式数据库、互联网和可扩展的存储系统。大数据在精准气象预测预报、大气污染集成预报和智能融合、数据综合分析和同化利用、大规模实时仿真及动态排放分析等方面具有一定的优势。能够满足海量数据处理要求,非常适合于计算密集型任务。因此,为了提高空气质量监测预报准确度,减少雾霾等空气污染情况,可以利用大数据技术和云计算来统计和分析空气污染数据,为提高空气质量提供重要数据参考。
2、大数据
伴随着大数据的产生,其在环境空气保护中发挥着极其重要的作用,同时有效的利用大数据会产生不可估量的价值。大数据分析常和云计算联系到一起,大数据分析相比传统的数据仓库数据量大、查询分析复杂。 利用新处理模式,大数据具有更强的决策力和洞察力,能够优化流程,实时处理海量的多样化数据,从中获得有价值的信息。
2.1 大数据的特征
IBM提出3V,即认为大数据具备规模性(Volume)、多样性(Variety)和高速性(Velocity)三个特征:规模性指数据量巨大,量级达到TB级及PB级;多样性指数据类型繁多,包括结构化数据和非结构化数据;高速性指数据创建、处理和分析的速度持续在加快。
图1 描述大数据特征的3个V
3V是大数据时代的显著特征,这些特征给我国环境空气质量保护带来机遇,大数据需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力。
2.2 基于Hadoop的大数据分析技术
Hadoop是一个能够对大量数据进行分布式处理的软件框架,以可靠、高效、可伸缩的方式进行数据处理,用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。它具有高可靠性、高扩展性、高效性、高容错性,并且成本较低。Hadoop的组成如图2所示,其中MapReduce和Hdfs是Hadoop的核心。
图2 Hadoop的组成
(1)Hdfs:以块数据为单位存储并具有副本机制的分布式文件系统,提供高吞吐量的应用程序数据访问,对外部客户机而言,Hdfs就像一个传统的分级文件系统。可以创建、删除、移动或重命名文件等等[3],见图3。
(2)MapReduce:分布式数据处理模式和执行环境,用于大规模数据集(大于1TB)的并行运算,通过把对数据集的大规模操作分发给网络上的每个节点实现可靠性,每个节点会周期性的返回它所完成的工作和最新的状态[4],见图4。
(3)Avro :主要负责数据的序列化,提供高效、跨语言 RPC 的数据序列系统,持久化数据存储,通信速度更快、数据结构更紧凑。
(4)Hive :分布式数据仓库,是基于Hadoop分布式计算平台上的提供Data Warehouse的SQL功能的一套软件。Hive 管理 Hdfs中存储的数据,提供了基于 SQL 的查询语言。
(5)HBase :一个分布式列存储数据库,是基于Hadoop Distributed File System,是一个开源的,基于列存储模型的可扩展的分布式数据库,支持大型表的存储结构化数据。HBase 使用Hdfs作
原创力文档


文档评论(0)