- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大数据实训方案气象数据分析系统北交大级学期实训方案大数据项目基于时间序列模型的气象数据分析青软实训教育科技青软实训教育科技股份有限公司目录一实训目标二项目说明项目特色项目介绍效果展示开发工具及技术架构模块设计整体框架三任务计划四开发团队五过程管理六考核办法七参考资料大数据实训方案气象数据分析系统大数据实训方案基于时间序列模型的历史气象数据分析实训目标本次实训结合软件工程专业前两年的主要课程项目管理数据库系统面向对象编程与设计开发技术大数据开发技术等主要课程而设计项目案例来源于真实的企业级应用系统
大数据实训方案-气象数据分析系统
PAGE \* Arabic 7
北交大16级学期实训方案
大数据项目-基于时间序列模型的NCDC气象数据分析
2018-5-20青软实训教育科技
2018-5-20
青软实训教育科技股份有限公司
目录
TOC \o 1-3 \h \z \u 一、 实训目标 1
二、 项目说明 2
2.1 项目特色 2
2.2 项目介绍 2
2.3 效果展示 2
2.4 开发工具及技术架构 2
2.5 模块设计 3
2.5.1 整体框架 3
三、 任务计划 5
四、 开发团队 6
五、 过程管理 7
六、 考核办法 7
七、 参考资料 8
大数据实训方案-气象数据分析系统
PAGE1
大数据实训方案-基于时间序列模型的历史气象数据分析
实训目标
本次实训结合软件工程专业前两年的主要课程:项目管理,数据库系统,面向对象编程与设计,Web开发技术,大数据开发技术等主要课程而设计,项目案例来源于真实的企业级应用系统,项目的整体架构、建设依据和通讯协议都完全符合真实的行业标准。通过本次实训项目,让学生具有企业级项目开发管理体验,根据之前学习的课程知识,要求学生采用面向对象的分析与设计方法,建立该项目的原型,设计合理的数据结构与算法,在知识、能力和素质等方面得到提升和锻炼,将达到如下目标:
提高软件系统的设计能力,如需求分析、界面设计、数据库设计和功能设计。了解相应的文档标准并完成文档的编写。
熟悉软件开发、测试、构建环境,如MyEclipse、Pycharm、Git等。
掌握大数据开发技术和框架,能够独立搭建基于spark的分布式开发环境;熟练使用pyspark脚本和pandas数据分析库。
掌握数据可视化技术,能够使用HTML5, CSS等web技术进行数据展示。
了解数据分析的常用算法,能够使用时间序列模型分析基于平稳时间序列的数据;
锻炼程序调试的能力,从而具有一定的解决实际工程问题的分析、设计和实现能力。
能够阅读和理解程序设计相关的英文文档。
形成良好的编码习惯,培养团队开发和协同工作的意识,提高沟通能力和自我表达能力。
项目说明
项目特色
项目结合真实应用场景,项目应用知识点设计较广,符合综合性人才培养需求;
项目采用较热门和学生比较感兴趣的大数据开发技术,结合手机端等多种展现形式,容易引起学生学习兴趣;
可扩展功能较多,学生可以按兴趣添加新的功能,可以培养学生的创新性思维;
采用真实的数据进行分析,贴合真实生产环境的数据分析需求;
项目介绍
项目是基于时间序列模型对历史气象数据进行分析,数据采集NDDC气象局官方网站。主要功能是对某地区1980年至2018年的气象数据进行ETL清洗后,使用spark对数据进行筛选,筛选出某年中每一天的最低气温,最高气温和平均气温,然后使用Python对数据进行时间序列分析,预测一周的气温走势。
最后,使用web终端对分析的结果进行可视化展示。
主要涉及的技术和知识点:
pyspark Shell命令的使用
数据分析库pandas,numpy的使用
Java、Python、JavaScript
时间序列模型
Web开发技术
效果展示
开发工具及技术架构
操作系统:Windows 7/windows 10
环境要求:
语言框架:Java、Python、html
开发工具:Eclipse、PyCharm
模块设计
整体框架
体系结构
任务计划
任务
进程(天)
学时
任务描述
相关知识
立项
0.5
2
分组, 确定项目角色
软件开发流程、软件工程概论
项目启动会议,确定项目目标及计划
掌握项目规划过程
大数据相关技术介绍
1
6
大数据spark和Hadoop的开发技术,spark的组成、工作原理
掌握Spark的系统架构,掌握MapReduce工作原理,理解时间序列模型的分析方法及相关算法。
常见时序数据的分析方法;基于时间序列模型的数据分析算法
开发平台的搭建
0.5
2
Spark分布式集群环境的介绍和安装
掌握开发平台相关情况,掌握开发工具使用。
2
开发工具的安装、配置和使用
开发阶段
7
2
安装配置虚拟机
掌握集群的搭建与运维、掌握spark任务开发、掌握Linux Shell命令的使用,掌握时序序列模型的使用
2
安装集群环境先决条件
2
安装Spark全分布式模式集群环境
2
下载气象数据并对数据做ETL预处理
2
安装Python相关的数据分析包
2
使用pandas提取指定年份的每天最高温度和最低温度,平均温度(用于气温预测)
2
ARIMA模型研究
2
使用Python实现基于时间序列模型的气温预测
2
2
创建MySql数据表
2
预测
原创力文档


文档评论(0)