- 1、本文档共8页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于Spark的云计算技术的初步研究一开题报告.
毕业设计(论文)开题报告
课 题 名 称:
学 生 姓 名:
学 号:
指 导 教 师:
专 业 名 称: 计算机科学与技术
2014年 12 月 24 日
说 明
1.根据教育部对毕业设计(论文)的评估标准,学生必须撰写《毕业设计(论文)开题报告》,由指导教师签署意见、毕业设计(论文)指导小组审查,学院教学院长批准后实施。
2.开题报告是毕业设计(论文)答辩委员会对学生答辩资格审查的依据材料之一。学生应当在毕业设计(论文)工作前期内完成,开题报告不合格者不得参加答辩。
3.毕业设计开题报告各项内容要实事求是,逐条认真填写。其中的文字表达要明确、严谨,语言通顺,外来语要同时用原文和中文表达。第一次出现缩写词,须注出全称。
4.本报告中,由学生本人撰写的对课题和研究工作的分析及描述,应不少于2000字,没有经过整理归纳,缺乏个人见解仅仅从网上下载材料拼凑而成的开题报告按不合格论。
5.开题报告原则上在第七学期18周前完成,各教研室完成毕业设计开题检查后,各设计指导小组应写一份开题情况总结报告报学院。
南京中医药大学信息技术学院
毕业设计(论文)开题报告
学生姓名 丁 艳 学 号 084211111 专 业 计算机科学与技术 指导教师姓名 胡晨骏 职 称 讲 师 所在单位
或部门 信息技术学院 课题来源 教师科研 课题类型 应用研究 课题名称 基于Spark的云计算技术的初步研究 毕业设计的内容和意义
内容:
功能要求:
1、安装Spark云计算技术系统
2、掌握Mllib、Graphx库
3、用标准Samples测试系统环境
4、研究基于Spark的健康分析算法
性能要求:
界面友好,运行稳定。
意义:
近几年来,随着计算机和信息技术的迅猛发展和普及应用,行业应用系统的规模迅速扩大,行业应用所产生的数据呈爆炸性增长。动辄达到数百TB甚至数十至数百PB规模的行业/企业大数据已远远超出了现有传统的计算技术和信息系统的处理能力,因此,寻求有效的大数据处理技术、方法和手段已经成为现实世界的迫切需求开源社区推出了许多值得关注的大数据分析平台Spark就是的佼佼者作为下一代云计算及大数据的核心技术,是Hadoop目前唯一替代者,能够做Hadoop做的一切事情,同时速度比Hadoop快了100倍以上。甚至在Hadoop最擅长的离线数据统计分析领域,Spark比Hadoop也至少快了一个几何级数;Spark另外一个无可取代的优势是:“One Stack to rule them all”,Spark采用一个统一的技术堆栈解决了云计算大数据包括如流处理、图技术、机器学习、NoSQL查询等方面的所有核心问题,具有完善的生态系统这直接奠定了其一统云计算大数据领域的霸主地位Samples测试系统环境。
【关键字】Spark, Scala,Eclipse
1.引言
如今,我们迎来了大数据时代。在这个大数据时代中,数据量爆炸式地增长,数据结构也变得更复杂化,形成了结构化数据、非结构化数据、半结构化数据并存的局面。因此,如何有效地存储和管理海量数据,成为这个时代的难点。为了解决以上的问题,研究并运用基于Spark的云计算技术对解决数据的存储与处理困难具有重大的意义。Spark是基于内存,是云计算领域的继Hadoop之后的下一代的最热门的通用的并行计算框架开源项目,尤其出色的支持Interactive Query、流计算、图计算等。
2.主要技术指标及研究方法
Spark技术代表未来数据处理的新方向,Spark是UC Berkeley AMP lab开源的类Hadoop MapReduce的通用并行计算框架,Spark基于MapReduce实现分布式计算,拥有Hadoop MapReduce具有的优点。不同于MapReduce的是,Job中间输出和结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。Spark的核心概念是RDD (resilient distributed dataset),RDD,全称为Resilient Distributed Datasets,是一个容错的、并行的数据结构,可以让用户显式地将数据存储到磁盘和内存中,并能控制数据的分区。同时,RDD还提供了一组丰富的操作来操作这些数据。在这些操作中,诸如map、flatMap、filter等转换操作实现了monad模式,很好地契合了Scala的集合操作。除此之外,RDD还提供了诸如j
您可能关注的文档
- 2014语文1-6模块测验题答案.doc
- 自主学习与小组合作教学模式的探究研究报告.doc
- 基于PWM技术汽车电子节气门控制系统的研究..doc
- 基于PWM的逆变电路分析..doc
- 水污染控制工程_复习题库7.doc
- 自主学习行为在初中英语课堂教学中的应用.doc
- 基于RGB230色敏探测器的颜色识别系统设计..doc
- 西安汉斯啤酒厂参观实习报告.doc
- 基于S7-300PLC的PID单闭环控制系统仿真..doc
- 基于SCP范式的中国电视传媒产业分析..doc
- 金融产品2024年投资策略报告:积极适应市场风格,行为金融+机器学习新发现.pdf
- 交运物流2024年度投资策略:转型十字路,峰回路又转(2023120317).pdf
- 建材行业2024年投资策略报告:板块持续磨底,重点关注需求侧复苏.pdf
- 宏观2024年投资策略报告:复苏之路.pdf
- 光储氢2024年投资策略报告:复苏在春季,需求的非线性增长曙光初现.pdf
- 公用环保2024年投资策略报告:电改持续推进,火电盈利稳定性有望进一步提升.pdf
- 房地产2024年投资策略报告:聚焦三大工程,静待需求修复.pdf
- 保险2024年投资策略报告:资产负债匹配穿越利率周期.pdf
- 政策研究2024年宏观政策与经济形势展望:共识与分歧.pdf
- 有色金属行业2024年投资策略报告:新旧需求共振&工业原料受限,构筑有色大海星辰.pdf
文档评论(0)