网站大量收购独家精品文档,联系QQ:2885784924

《数据分析应用实例》精品课件.pptx

《数据分析应用实例》精品课件.pptx

此“教育”领域文档为创作者个人分享资料,不作为权威性指导和指引,仅供参考
  1. 1、本文档共25页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

第4课

数据分析应用实例

新知导入

右图是“2019年春节抗州市空气质量情况研究报告”,这样的研究报告是怎样统计出来的,今天我们通过这个实例来学习数据如何分析处理并撰写报告。

新知讲解

数据分析在日常工作和生活中应用广泛,如智能推荐、交通疏导、能源调控等。

虽然数据分析的应用场景各不相同,但是其分析过程和方法基本相似。

例如,要研究春节期间全国空气质量的情况,可以按照以下过程进行。

新知讲解

一、明确分析的目的和思路

研究空气质量情况,分析污染源或主要污染物,将有助于治理环境污染、改善人们的健康状况。

新知讲解

空气质量情况有一个常用的衡量指标一一空气质量指数(简称AQ)。

它描述了空气污染程度和对身体健康的影响,如表所示。

空气质量指数(AQI)

等级

对健康的影响

0~50

空气质量令人满意

51~100

空气质量可接受

101~150

轻度污染

不利于易感人群健康

151~200

中度污染

影响健康人群的心脏、呼吸系统

201~300

重度污染

非常不利于健康

301~500

严重污染

有毒害

新知讲解

PM2.5、PMI0、二氧化硫等六项主要污染物的浓度值是AQ计算与评价的主要依据,可利用这些数据研究。

新知讲解

二、数据收集和整理

这些网站一般每小时会更新数据,但不提供数据文件的下载服务。

确定好具体需要哪些数据后,就可以登录相关空气质量实时发布网站查询所需的数据。

若用户想要收集某段时间内的所有数据,则需要手动查询并记录每小时的数据,工作量非常大。

新知讲解

因此,在遵循网络道德规范、确保数据真实有效的前提下,也可以从网上下载他人整理好的开放的数据文件。

本次研究采用他人整理好的开放的数据文件,经过数据规范化、査重等处理,最后得到两万多条数据,结果如图所示。

新知讲解

三、数据分析与数据可视化

由于要对两万多条数据进行分组、批量计算等处理,利用电子表格处理软件进行分析效率较低。

数据准备好以后,就可以进行数据分析了。

因此,可以选用Python语言编写程序,借助第三方库“pandas”实现数据的读取、分组、批量计算等。

新知讲解

1.读取数据

“pandas”库提供“read_excel”函数,用于快速加载Excel表格中的数据。

如图所示,利用read_excel函数将“AqIdata.xlsx”文件中的数据载入对象“df”中后,可以用“info”函数观察“df”中数据的行数、列名称、数据类型等情况,再用形如“df['列名称]”的代码访问相应列的数据。

新知讲解

程序运行后得到26424条数据,具体情况如图所示。

新知讲解

2.处理分析

首先,采用平均分析法分析全国整体空气质量状况。

读取数据后,就可以针对不同的分析要求,采用合理的分析方法进行处理和分析。

如图所示,用“groupby”函数将“df”中的数据按“time”列的空气质量监测时间分组。

新知讲解

再用“mean”函数批量计算各组的AQI平均值,处理结果如图所示。

新知讲解

为了更直观地呈现上述计算结果,使用第三方库“matplotlib”的“pyplot”子库绘制折线图,绘制方法和代码如图所示

新知讲解

可视化结果如图所示。

新知讲解

全国AQI的变化情况正好与全国人民集中燃放烟火的情况吻合。

2019年2月5日凌晨2点空气污染最严重,当时AQI平均值接近180。

再用相同方法研究PM2.5等指数的变化情况,结果如图所示

新知讲解

接着,就可以根据AQI和各污染物浓度的变化情况,采用对比分析法寻找导致空气质量变化的主要原因。

对照发现,PM2.5、PM10和二氧化硫的浓度变化情况与AQI基本一致,是导致空气质量变化的主要原因。

新知讲解

为了进一步研究这三个指数在全国空气污染最严重时的污染情况,需要统计当时各城市的主要污染物。

新知讲解

如图所示,根据“time”列的值对数据进行筛选,选取监测时间为“2019-02-0502:000”的数据。

新知讲解

用“value_counts”函数统计“main_pollution”列中各污染物出现的次数,处理结果如图所示。

可见当时PM2.5和PM10是各城市的主要污染物,污染情况比较严重。

新知讲解

除了前面所做的分析之外,还可以采用分组分析法,研究不同时段或不同城市的空气质量情况等。

新知讲解

数据分析完成后,一般要撰写分析报告,对分析结果做进一步的阐述。

数据分析报告的主要内容包括:

介绍数据分析的背景和意义、展示分析的过程和结果、提出相关建议或解决方案等。

四、撰写报告

一份高质量的

您可能关注的文档

文档评论(0)

crsky2046 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档