- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于Spark的海量数据计算平台设计与实现-软件工程专业论文
大连理工大学学位论文独创性声明作者郑重声明:所呈交的学位论文,是本人在导师的指导下进行研究
大连理工大学学位论文独创性声明
作者郑重声明:所呈交的学位论文,是本人在导师的指导下进行研究 工作所取得的成果。尽我所知,除文中已经注明引用内容和致谢的地方外, 本论文不包含其他个人或集体已经发表的研究成果,也不包含其他已申请 学位或其他用途使用过的成果。与我一同工作的同志对本研究所做的贡献 均已在论文中做了明确的说明并表示了谢意。
若有不实之处,本人愿意承担相关法律责任。
学位论文题目: 基王墨卫垒!至鲍连量数量i土箕壬金遮让生塞趣
作者签名..一一一举一弦L血近——一日期:j竺生年—L月jL日
万方数据
大连理工大学专业学位硕士学位论文摘
大连理工大学专业学位硕士学位论文
摘 要
数据处理技术主要包括数据存储和数据计算技术,其主要目标是实现各种数据集的 挖掘分析工作。近几年,UC Berkeley AMP Lab开发的新一代数据处理框架Spark逐渐 走进人们视野,它完善了早期流行的Hadoop框架,提出了弹性分布式数据集RDD (Resilient Distributed Datasets)和更灵活多样的编程模式,给数据的处理工作提供了一
条更简单、更快捷的途径。 随着大数据时代的到来,很多公司企业都会经常碰到海量数据处理分析的问题。现
存的一些海量数据处理工具大多收费,并且存在操作复杂、算法不可定制、处理结果不
直观等问题。本文所述的海量数据计算平台后台基于Spark集群,可以高效实现海量数
据的存储和计算工作。在此基础上,提供算法自定义功能,用户通过提交算法包,并简 单配置即可使自定义算法运行在该平台上。前台基于Webx框架,以网站形式对外提供 服务,降低用户学习传统命令行操作的成本,实现Spark操作完全图形化。平台还对数 据处理结果进行多样可视化展示,为后期深入研究提供了便利。
本文首先对Spark和Web开发技术的现状进行介绍和分析,详细阐述当前海量数据 处理面临的问题,并整理出海量数据计算平台的功能、性能等需求。在此基础上,针对 该平台使用的Webx开源框架进行具体介绍,并利用框架提供的各种服务设计实现前端
网站的整体功能。然后分析并行编程模型,利用开源算法库MLlib实现经典机器学习算
法。接着分析平台的数据存储机制,使用Mysql存储用户和算法信息,结合HDFS存储 输入文件。最后通过远程连接技术Secure Shell实现前台网站与后台Spark集群的交互。
关键词:海量数据;Webx;Spark;可视化
万方数据
Design
Design and Implementation of the Massive Data Computing Platform Based on Spark
Abstract
The data processing technology is combined with data storage and data computation that its main goal is to achieve mining analysis for all kinds of data.In recent years,UC Berkeley AMP Lab develops a new framework for massive data processing called Spark which is
gradually into 0111horizon.It is not only perfects the early popular Hadoop framework,but also proposes the resilient distributed datasets RDD(Resilient Distributed Datasets)and more flexible programming model,which provides a simpler and more efficient way for processing massive data.
With the advent ofthe massive data era,many companies will often encounter the problem of massive data processing and analysis.Charge,complex operations,non-customized algorithms and non..intuitive results are problems that the massive data processing systems have
您可能关注的文档
- 基于SOPC的非特定人语音识别系统研究与设计-电路与系统专业论文.docx
- 基于sopc的远程自动抄表系统的研究与设计-检测技术与自动化装置专业论文.docx
- 基于SOPC的非金属超声检测分析仪的研制-电力电子与电力传动专业论文.docx
- 基于SOPC的音频广播信号筛选技术研究与实现-电子与通信工程专业论文.docx
- 基于SOPC的高清视频处理系统研究与实现-计算机技术专业论文.docx
- 基于SOPC相关法超声波风速风向仪的研究-等离子体物理专业论文.docx
- 基于SOPC的远程图像监控系统的设计与实现-电路与系统专业论文.docx
- 基于SOPC的高性能图像相关器的设计与实现-模式识别与智能系统专业论文.docx
- 基于SOQPSK的低压电力线通信技术研究-信息与通信工程专业论文.docx
- 基于SOP的柑橘多光谱检测方法研究-检测技术与自动化装置专业论文.docx
- 基于SPC与Bootstrap方法的高校教学质量评价的分析-计算机系统结构专业论文.docx
- 基于SPC方法的轿车焊装项目质量管理-项目管理专业论文.docx
- 基于SPAR系统的现代船舶生产管理应用研究-船舶与海洋结构物设计制造专业论文.docx
- 基于SPC控制图模式的自动生产线产品质量动态监控方法及应用-工业工程专业论文.docx
- 基于SPCE061A的孔金属化设备控制系统的设计与研究-电磁场与微波技术专业论文.docx
- 基于SPC的多样化小批量机械产品质量控制研究-机械电子工程专业论文.docx
- 基于SPEA-Ⅱ和NSGA-Ⅱ的多目标最优潮流-水利水电工程专业论文.docx
- 基于SPC的质量数据自动采集与分析系统开发与研究-管理科学与工程专业论文.docx
- 基于SPC的计算机集成质量控制系统研究-计算机应用技术专业论文.docx
- 基于SPC的制丝生产过程质量控制的研究-控制科学与工程专业论文.docx
文档评论(0)