基于Spark的云计算技术的初步研究一开题报告..doc

下载文档

21
0
约5.83千字
约 8页
2017-01-04 发布于重庆
举报
版权申诉
保障服务

基于Spark的云计算技术的初步研究一开题报告..doc

1、本文档共8页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

基于Spark的云计算技术的初步研究一开题报告.

毕业设计（论文）开题报告课题名称：学生姓名：学号：指导教师：专业名称：计算机科学与技术 2014年 12 月 24 日说明 1．根据教育部对毕业设计（论文）的评估标准，学生必须撰写《毕业设计（论文）开题报告》，由指导教师签署意见、毕业设计（论文）指导小组审查，学院教学院长批准后实施。 2．开题报告是毕业设计（论文）答辩委员会对学生答辩资格审查的依据材料之一。学生应当在毕业设计（论文）工作前期内完成，开题报告不合格者不得参加答辩。 3．毕业设计开题报告各项内容要实事求是，逐条认真填写。其中的文字表达要明确、严谨，语言通顺，外来语要同时用原文和中文表达。第一次出现缩写词，须注出全称。 4．本报告中，由学生本人撰写的对课题和研究工作的分析及描述，应不少于2000字，没有经过整理归纳，缺乏个人见解仅仅从网上下载材料拼凑而成的开题报告按不合格论。 5．开题报告原则上在第七学期18周前完成，各教研室完成毕业设计开题检查后，各设计指导小组应写一份开题情况总结报告报学院。南京中医药大学信息技术学院毕业设计(论文)开题报告学生姓名丁艳学号 084211111 专业计算机科学与技术指导教师姓名胡晨骏职称讲师所在单位或部门信息技术学院课题来源教师科研课题类型应用研究课题名称基于Spark的云计算技术的初步研究毕业设计的内容和意义内容：功能要求： 1、安装Spark云计算技术系统 2、掌握Mllib、Graphx库 3、用标准Samples测试系统环境 4、研究基于Spark的健康分析算法性能要求：界面友好，运行稳定。意义：近几年来，随着计算机和信息技术的迅猛发展和普及应用，行业应用系统的规模迅速扩大，行业应用所产生的数据呈爆炸性增长。动辄达到数百TB甚至数十至数百PB规模的行业/企业大数据已远远超出了现有传统的计算技术和信息系统的处理能力，因此，寻求有效的大数据处理技术、方法和手段已经成为现实世界的迫切需求开源社区推出了许多值得关注的大数据分析平台Spark就是的佼佼者作为下一代云计算及大数据的核心技术，是Hadoop目前唯一替代者，能够做Hadoop做的一切事情，同时速度比Hadoop快了100倍以上。甚至在Hadoop最擅长的离线数据统计分析领域，Spark比Hadoop也至少快了一个几何级数；Spark另外一个无可取代的优势是：“One Stack to rule them all”，Spark采用一个统一的技术堆栈解决了云计算大数据包括如流处理、图技术、机器学习、NoSQL查询等方面的所有核心问题，具有完善的生态系统这直接奠定了其一统云计算大数据领域的霸主地位Samples测试系统环境。【关键字】Spark, Scala,Eclipse 1.引言如今，我们迎来了大数据时代。在这个大数据时代中，数据量爆炸式地增长，数据结构也变得更复杂化，形成了结构化数据、非结构化数据、半结构化数据并存的局面。因此，如何有效地存储和管理海量数据，成为这个时代的难点。为了解决以上的问题，研究并运用基于Spark的云计算技术对解决数据的存储与处理困难具有重大的意义。Spark是基于内存，是云计算领域的继Hadoop之后的下一代的最热门的通用的并行计算框架开源项目，尤其出色的支持Interactive Query、流计算、图计算等。 2.主要技术指标及研究方法 Spark技术代表未来数据处理的新方向，Spark是UC Berkeley AMP lab开源的类Hadoop MapReduce的通用并行计算框架，Spark基于MapReduce实现分布式计算，拥有Hadoop MapReduce具有的优点。不同于MapReduce的是，Job中间输出和结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。Spark的核心概念是RDD (resilient distributed dataset)，RDD，全称为Resilient Distributed Datasets，是一个容错的、并行的数据结构，可以让用户显式地将数据存储到磁盘和内存中，并能控制数据的分区。同时，RDD还提供了一组丰富的操作来操作这些数据。在这些操作中，诸如map、flatMap、filter等转换操作实现了monad模式，很好地契合了Scala的集合操作。除此之外，RDD还提供了诸如j