基于Spark的海量数据计算平台设计与实现-软件工程专业论文.docxVIP

下载本文档

88
0
约5.65万字
约 61页
2018-12-18 发布于上海
举报
版权申诉

基于Spark的海量数据计算平台设计与实现-软件工程专业论文.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于Spark的海量数据计算平台设计与实现-软件工程专业论文

大连理工大学学位论文独创性声明作者郑重声明：所呈交的学位论文，是本人在导师的指导下进行研究大连理工大学学位论文独创性声明作者郑重声明：所呈交的学位论文，是本人在导师的指导下进行研究工作所取得的成果。尽我所知，除文中已经注明引用内容和致谢的地方外，本论文不包含其他个人或集体已经发表的研究成果，也不包含其他已申请学位或其他用途使用过的成果。与我一同工作的同志对本研究所做的贡献均已在论文中做了明确的说明并表示了谢意。若有不实之处，本人愿意承担相关法律责任。学位论文题目：基王墨卫垒!至鲍连量数量i土箕壬金遮让生塞趣作者签名．．一一一举一弦L血近——一日期：j竺生年—L月jL日万方数据大连理工大学专业学位硕士学位论文摘大连理工大学专业学位硕士学位论文摘要数据处理技术主要包括数据存储和数据计算技术，其主要目标是实现各种数据集的挖掘分析工作。近几年，UC Berkeley AMP Lab开发的新一代数据处理框架Spark逐渐走进人们视野，它完善了早期流行的Hadoop框架，提出了弹性分布式数据集RDD (Resilient Distributed Datasets)和更灵活多样的编程模式，给数据的处理工作提供了一条更简单、更快捷的途径。随着大数据时代的到来，很多公司企业都会经常碰到海量数据处理分析的问题。现存的一些海量数据处理工具大多收费，并且存在操作复杂、算法不可定制、处理结果不直观等问题。本文所述的海量数据计算平台后台基于Spark集群，可以高效实现海量数据的存储和计算工作。在此基础上，提供算法自定义功能，用户通过提交算法包，并简单配置即可使自定义算法运行在该平台上。前台基于Webx框架，以网站形式对外提供服务，降低用户学习传统命令行操作的成本，实现Spark操作完全图形化。平台还对数据处理结果进行多样可视化展示，为后期深入研究提供了便利。本文首先对Spark和Web开发技术的现状进行介绍和分析，详细阐述当前海量数据处理面临的问题，并整理出海量数据计算平台的功能、性能等需求。在此基础上，针对该平台使用的Webx开源框架进行具体介绍，并利用框架提供的各种服务设计实现前端网站的整体功能。然后分析并行编程模型，利用开源算法库MLlib实现经典机器学习算法。接着分析平台的数据存储机制，使用Mysql存储用户和算法信息，结合HDFS存储输入文件。最后通过远程连接技术Secure Shell实现前台网站与后台Spark集群的交互。关键词：海量数据；Webx；Spark；可视化万方数据 Design Design and Implementation of the Massive Data Computing Platform Based on Spark Abstract The data processing technology is combined with data storage and data computation that its main goal is to achieve mining analysis for all kinds of data．In recent years，UC Berkeley AMP Lab develops a new framework for massive data processing called Spark which is gradually into 0111horizon．It is not only perfects the early popular Hadoop framework，but also proposes the resilient distributed datasets RDD(Resilient Distributed Datasets)and more flexible programming model，which provides a simpler and more efficient way for processing massive data． With the advent ofthe massive data era,many companies will often encounter the problem of massive data processing and analysis．Charge，complex operations，non-customized algorithms and non．．intuitive results are problems that the massive data processing systems have