毕业设计(论文)开题报告
课题名称:
学生姓名:
学 号:
指导教师:
专业 名称: 计算机科学与技术
2014年 12月24日
1.根据教育部对毕业设计(论文)的评估标准,学生必须撰写
《毕业设计(论文)开题报告》,由指导教师签署意见、毕业设计 (论文)指导小组审查,学院教学院长批准后实施。
2.开题报告是毕业设计(论文)答辩委员会对学生答辩资格审 查的依据材料之一。学生应当在毕业设计(论文)工作前期内完成, 开题报告不合格者不得参加答辩。
3.毕业设计开题报告各项内容要实事求是,逐条认真填写。其 中的文字表达要明确、严谨,语言通顺,外来语要同时用原文和中 文表达。第一次出现缩写词,须注出全称。
4.本报告中,由学生本人撰写的对课题和研究工作的分析及描 述,应不少于 2000 字,没有经过整理归纳,缺乏个人见解仅仅从网 上下载材料拼凑而成的开题报告按不合格论。
5.开题报告原则上在第七学期 18 周前完成,各教研室完成毕
业设计开题检查后,各设计指导小组应写一份开题情况总结报告报 学院。
南京中医药大学信息技术学院
毕业设计(论文)开题报告
学生姓名
丁艳
学号
084211111
专业
计算机科学与技术
指导教师姓名
胡晨骏
职称
讲师
所在单位 或部门
信息技术学院
课题来源
教师科研
课题类型
应用研究
课题名称
基于Spark的云计算技术的初步研究
毕业设计的内 容和意义
内容:
功能要求:
1、 女装Spark云计算技术系统
2、 掌握 Mllib、Graphx 库
3、 用标准Samples测试系统环境
4、 研究基于Spark的健康分析算法
性能要求:
界面友好,运仃稳疋。
意义:
近几年来,随着计算机和信息技术的迅猛发展和普及应用,行业应用系统的
规模迅速扩大,行业应用所产生的数据呈爆炸性增长。动辄达到数百 TB甚至数十
至数百PB规模的行业/企业大数据已远远超出了现有传统的计算技术和信息系统的 处理能力,因此,寻求有效的大数据处理技术、方法和手段已经成为现实世界的 迫切需求。开源社区推出了许多值得关注的大数据分析平台,而 Spark就是其中的
佼佼者。Spark作为下一代云计算及大数据的核心技术,是 Hadoop目前唯一替代者,
能够做Hadoop做的一切事情,同时速度比 Hadoop快了 100倍以上。甚至在 Hadoop
擅长的离线数据统计分析领域, Spark比Hadoop也至少快了一个几何级数; Spark
另外一个无可取代的优势是:One Stack to rule them all ”,Spark米用一个 统一的技术堆栈解决了云计算大数据包括如流处理、图技术、机器学习、 NoSQL查
询等方面的所有核心问题,具有完善的生态系统 ,这直接奠定了其一统云计算大数
据领域的霸主地位。因此研究基于 Spark的云计算技术,顺应了时代发展的需要,
具有极其深远的意义。
基于Spark的云计算技术的初步研究
【摘要】
伴随着云计算、大数据相关技术和产业的逐步成熟,继 Hadoop之后,Spark
以性能超Hadoop百倍,算法实现仅有其1/10或1/100,星火燎原,正逐步加速 成为大数据时代统一计算平台。基于 MapReduce的分布式计算方法使 Spark类似
于Hadoop,却又比Hadoop的通用性更好,迭代运算效率更高,容错能力更强, 未来的Spark将会是非常成功的并行计算框架。
本文主要的研究内容包括:(1 )在linux环境下编译安装 Spark-0.9.0 版本。 (2)配置并搭建 Scala环境。(3)搭建Eclipse环境。(4)用标准Samples测试 系统环境。
【关键字】Spark, Scala,Eclipse
引言
如今,我们迎来了大数据时代。在这个大数据时代中,数据量爆炸式地增长, 数据结构也变得更复杂化,形成了结构化数据、非结构化数据、半结构化数据并 存的局面。因此,如何有效地存储和管理海量数据,成为这个时代的难点。为了 解决以上的问题,研究并运用基于 Spark的云计算技术对解决数据的存储与处理
困难具有重大的意义。 Spark是基于内存,是云计算领域的继 Hadoop之后的下一
代的最热门的通用的并行计算框架开源项目,尤其出色的支持 In teractive
Query、流计算、图计算等。
主要技术指标及研究方法
Spark技术代表未来数据处理的新方向, Spark是UCBerkeley AMPIab开源的
类Hadoop MapReduce的通用并行计算框架, Spark基于MapReduce实现分布式计
文献综述算,拥有 Hadoop Map Reduce具有的优点。不同于 Map Reduce的是,Job中间输出 和结果可以保存在内存中,从而不再需要读
原创力文档

文档评论(0)