基于Spark的大数据挖掘技术分析.docx

  1. 1、本文档共4页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

?

?

基于Spark的大数据挖掘技术分析

?

?

于晶

【摘要】文章主要介绍了以Spark为基础的大数据挖掘,首先分析了以Spark为基础的大数据生态系统,其次介绍了分布式集群与开发环境构建,再次介绍了Apriori算法实现,最后分析了以Spark为基础的分布协同过滤推荐。

【关键词】Spark;大数据;挖掘技术

因为大数据具有多样性、数据量大等特点,所以在大数据分析过程中,对于数据处理效率、速度以及实时性拥有较高要求。数据挖掘主要是以海量信息为目标,通过建模算法,找到隐藏的有用信息,充分发挥大数据价值。Spark体系主属于一种低延迟分布系统,以大范围数据集合为对象进行计算分析等操作。

一、以Spark为基础的大数据系统

(一)SparkRuntime

SparkCore中的相关功能包括内存管理和任务调度等内容,内含故障修复和存储交互相关子元素。通过RDD结构在Spark中传送数据包的过程中,应该率先掌握Spark处理关键数据的操作流程,相关数据信息和对象概念之间较为相似。首先全部的数据集都被分成数个子集,而每个子集还能够被传输至集群相关节点当中进行有效处理分析。其次,能够妥善保存计算得到的中间结果,基于可靠性对问题进行详细思考,能够收获相同的计算结果,并在子集节点相关文件内进行备份储存。最后进行计算解析时,如在处理数据子集过程中产生错误,则需要对子集进行重新整理,促进容错机制的有效落实[1]。

(二)GraphX

在Spark中,GraphX是重要的子项目,为此应该以Spark为基础进行创建,对大规模图进行准确计算的基础上,融入GraphX,同时添加其他组件,实施系统融合,能够提升整体数据处理能力,其中GraphX的主要功能为帮助采集运输计算过程中所需要的数据图形运行符号,由于类库存在诸多定义,通过隐性SCALE语言对特征进行合理转换的过程中,能够控制调节GraphOPS操作符。而GraphX内,需要对相关算法进行深入优化,从而为后期针对图集实施综合处理提供便利条件。GraphX主要优势便是能够进一步扩大数据规模,强化数据吸收力度。

(三)SparkStreaming

Spark即分布式的SparkStreaming数据处理的结构系统,对Spark原有数据处理能力进行优化拓展的基础上,使SparkStreaming能够结合相应的操作阶段对单位进行准确分割,从而构成一种RDD,通过短小的时间间隔对流式数据进行有效处理,因为受到处理延时问题的影响,从某一程度而言,还能够将其看作是实施处理结构。SparkStreaming属于一种容错结构形式,其错误恢复和错误处理水平极高,为此在错误处理方面拥有较为突出的应用优势。此外,SparkStreaming还能和Spark的生态模式实施有效对接,为此在协同处理完数据流之后,还可以对各种复杂现象进行有效处理。

二、以Spark为基础的分布式集群和开发环境构建

(一)硬件系统条件

入想进一步提高系统的运行效果和兼容性,在创建Spark集群的过程中,所应用的物理主机应该选择LINUX系统。通过三台虚拟设备和一个主机设备实施环境测试,以此为基础构建分布式集群,具体包括MASTER节点和WORKER节点两个。而MASTER的核心工作任务便是对分布式Spark应用程序进行单机编制,并进行合理调节,其配置要求较高。MASTER节点区域装置设备应该配置四核处理器以及4G的内存,而WORKER节点可以配置2G的内存。每个节点的相关硬件都是在PCIE的条件下创建固态硬盘,拥有较高的读写效率,能够进一步提升工作质量和运行速度。集群的操作形式不但可以进一步缩减运行成本,同时还可以结合现实需求适当调整节点数量,进行适当的减少或增加。

(二)构建Spark分布式集群

设置SCALA语言,同时把各个虚拟机装置中的SLAVES文件中的相关内容修改为集群内WORKER节点主机名,此外还应该针对各个节点中的Spark安装目录,即Spark-ENV.SH文件进行修改。其中,环境变量JDK对系统进行配置,SCALA-HOME这一安装路径会修改系统。MASTER内部相关各种节点主机名称和IP选择Spark_Master_IP相关属性值,剩余内容则设置为默认值,此外还需要确保集群内的各个节点文件Spark-env.sh能够始终和文件SLAVES的内容维持良好的一致性,在结束相关配置工作后,利用JPS命令对集群的启动状态进行详细查看[2]。

(三)配置IDE开发环境

SCALA语言在进行设计研发过程中,需要以IDEA为核心条件,同时也是重要的基础条件,因此可以将其作为对Spark结构程序进行设计、编程的基础环境。如果想要IDEA实际应用中缩减缓存数量,扩大I/O资源应用,占据有效空间,应该利用S

文档评论(0)

183****1225 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档