- 1、本文档共25页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
第4课
数据分析应用实例
新知导入
右图是“2019年春节抗州市空气质量情况研究报告”,这样的研究报告是怎样统计出来的,今天我们通过这个实例来学习数据如何分析处理并撰写报告。
新知讲解
数据分析在日常工作和生活中应用广泛,如智能推荐、交通疏导、能源调控等。
虽然数据分析的应用场景各不相同,但是其分析过程和方法基本相似。
例如,要研究春节期间全国空气质量的情况,可以按照以下过程进行。
新知讲解
一、明确分析的目的和思路
研究空气质量情况,分析污染源或主要污染物,将有助于治理环境污染、改善人们的健康状况。
新知讲解
空气质量情况有一个常用的衡量指标一一空气质量指数(简称AQ)。
它描述了空气污染程度和对身体健康的影响,如表所示。
空气质量指数(AQI)
等级
对健康的影响
0~50
优
空气质量令人满意
51~100
良
空气质量可接受
101~150
轻度污染
不利于易感人群健康
151~200
中度污染
影响健康人群的心脏、呼吸系统
201~300
重度污染
非常不利于健康
301~500
严重污染
有毒害
新知讲解
PM2.5、PMI0、二氧化硫等六项主要污染物的浓度值是AQ计算与评价的主要依据,可利用这些数据研究。
新知讲解
二、数据收集和整理
这些网站一般每小时会更新数据,但不提供数据文件的下载服务。
确定好具体需要哪些数据后,就可以登录相关空气质量实时发布网站查询所需的数据。
若用户想要收集某段时间内的所有数据,则需要手动查询并记录每小时的数据,工作量非常大。
新知讲解
因此,在遵循网络道德规范、确保数据真实有效的前提下,也可以从网上下载他人整理好的开放的数据文件。
本次研究采用他人整理好的开放的数据文件,经过数据规范化、査重等处理,最后得到两万多条数据,结果如图所示。
新知讲解
三、数据分析与数据可视化
由于要对两万多条数据进行分组、批量计算等处理,利用电子表格处理软件进行分析效率较低。
数据准备好以后,就可以进行数据分析了。
因此,可以选用Python语言编写程序,借助第三方库“pandas”实现数据的读取、分组、批量计算等。
新知讲解
1.读取数据
“pandas”库提供“read_excel”函数,用于快速加载Excel表格中的数据。
如图所示,利用read_excel函数将“AqIdata.xlsx”文件中的数据载入对象“df”中后,可以用“info”函数观察“df”中数据的行数、列名称、数据类型等情况,再用形如“df['列名称]”的代码访问相应列的数据。
新知讲解
程序运行后得到26424条数据,具体情况如图所示。
新知讲解
2.处理分析
首先,采用平均分析法分析全国整体空气质量状况。
读取数据后,就可以针对不同的分析要求,采用合理的分析方法进行处理和分析。
如图所示,用“groupby”函数将“df”中的数据按“time”列的空气质量监测时间分组。
新知讲解
再用“mean”函数批量计算各组的AQI平均值,处理结果如图所示。
新知讲解
为了更直观地呈现上述计算结果,使用第三方库“matplotlib”的“pyplot”子库绘制折线图,绘制方法和代码如图所示
新知讲解
可视化结果如图所示。
新知讲解
全国AQI的变化情况正好与全国人民集中燃放烟火的情况吻合。
2019年2月5日凌晨2点空气污染最严重,当时AQI平均值接近180。
再用相同方法研究PM2.5等指数的变化情况,结果如图所示
新知讲解
接着,就可以根据AQI和各污染物浓度的变化情况,采用对比分析法寻找导致空气质量变化的主要原因。
对照发现,PM2.5、PM10和二氧化硫的浓度变化情况与AQI基本一致,是导致空气质量变化的主要原因。
新知讲解
为了进一步研究这三个指数在全国空气污染最严重时的污染情况,需要统计当时各城市的主要污染物。
新知讲解
如图所示,根据“time”列的值对数据进行筛选,选取监测时间为“2019-02-0502:000”的数据。
新知讲解
用“value_counts”函数统计“main_pollution”列中各污染物出现的次数,处理结果如图所示。
可见当时PM2.5和PM10是各城市的主要污染物,污染情况比较严重。
新知讲解
除了前面所做的分析之外,还可以采用分组分析法,研究不同时段或不同城市的空气质量情况等。
新知讲解
数据分析完成后,一般要撰写分析报告,对分析结果做进一步的阐述。
数据分析报告的主要内容包括:
介绍数据分析的背景和意义、展示分析的过程和结果、提出相关建议或解决方案等。
四、撰写报告
一份高质量的
您可能关注的文档
- 《完善基础建模》精品课件.pptx
- 《建立基础模型》精品课件.pptx
- 2025年山西电力职业技术学院高职单招职业适应性测试近5年备考题库及答案解析.docx
- 2024年全球及中国双纤光纤收发器行业头部企业市场占有率及排名调研报告.docx
- 2024年全球及中国石墨转子和叶片行业头部企业市场占有率及排名调研报告.docx
- 2024年全球及中国柱式汽车纵梁液压机行业头部企业市场占有率及排名调研报告.docx
- 2024年全球及中国右旋环氧氯丙烷行业头部企业市场占有率及排名调研报告.docx
- 2024-2030全球踏板式摩托车行业调研及趋势分析报告.docx
- 2024年全球及中国5G基站屏蔽罩行业头部企业市场占有率及排名调研报告.docx
- 2024年全球及中国脱碳即服务行业头部企业市场占有率及排名调研报告.docx
- 2025年中山职业技术学院高职单招职业适应性测试近5年备考题库及答案解析.docx
- 2024-2030全球水平自动人行道扶梯行业调研及趋势分析报告.docx
- 2025年山西管理职业学院高职单招职业适应性测试近5年备考题库及答案解析.docx
- 2024年全球及中国酚酞行业头部企业市场占有率及排名调研报告.docx
- 2025年永州师范高等专科学校高职单招职业适应性测试近5年备考题库及答案解析.docx
- 2024年全球及中国冷藏烘焙展示柜行业头部企业市场占有率及排名调研报告.docx
- 2024-2030全球硫化钴行业调研及趋势分析报告.docx
- 2024年全球及中国电动汽车存储器行业头部企业市场占有率及排名调研报告.docx
- 2025年太原城市职业技术学院高职单招职业适应性测试近5年备考题库及答案解析.docx
- 2024-2030全球消费级CPU行业调研及趋势分析报告.docx
最近下载
- 中医养生预防脑血管疾病的措施(3).pptx
- 教育部2024年专项任务项目(高校辅导员研究)申请评审书《增强高校辅导员与学生谈心谈话的针对性和实效性研究》.docx VIP
- YBJ-PS03-2004埋地无压预制混凝土排水圆形管管基及接口.pdf
- 家校社协同育人教联体典型案例(幼小中).doc
- 智慧教育双师课堂解决方案.pdf
- DL∕T 1949-2018 -火力发电厂热工自动化系统电磁干扰防护技术导则.pdf
- 2023云南昆明空港投资开发集团招聘7人考前自测高频考点模拟试题(共500题)含答案详解.docx
- 营销三大法宝-销售带动配合-PPT课件.ppt
- 人教版本历史七下第3课(开元盛世)课件3.ppt
- 2025考研英语一真题及答案.pdf
文档评论(0)