- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于Hadoop云计算平台算法研究
基于Hadoop云计算平台算法研究
【摘要】 随着互联网信息时代的到来,数据呈现爆发式增长的态势,大数据时代已经悄然来临,如何借助信息时代的便利推动现有的行业发展是当前数据分析技术应当实现的目标。云计算技术的产生已经推动了数据分析技术的进步以及更新,在数据挖掘的基础上,Hadoop云计算平台算法能够集合开发各个单处理机的节点,每个节点对自己的分配结果处理完毕以后各自汇总结果,最终整合整个处理结果,本文探讨了Hadoop云计算平台的算法,促使Hadoop云计算平台朝着更大规模的数据挖掘方向发展,为社会经济发展作出更大的贡献。
关键词:数据分析;Hadoop云计算平台;数据挖掘
一、Hadoop云计算平台的技术框架搭建
云计算一直是一个典型的由产业需求的推动的科学研究发展和政府支持的技术,云计算在海量信息搜索以及数据处理的时候能够发挥非常重要的作用,给行业发展带来了很大的便利,为了抓住行业的发展机遇,本文对云计算技术进行了探究,从技术的角度分析了如何实现云计算平台的搭建。
1.1Hadoop云计算平台的技术发展背景
Hadoop云计算平台是由Apache基金开发的开源云计算平台,贯彻了谷歌公司的云计算主题思想,主要包含了HDFS的分布式文件系统,为Hadoop云计算平台的底层文件存储提供了良好的解决方案。
在对谷歌的云计算技术进行研究的过程中,Hadoop云计算平台将普通的电脑大规模的集成在一起,将云计算技术广泛地推广出去,在我国,阿里巴巴、百度公司以及腾讯等等主流的互联网企业都会借助Hadoop云计算平台的技术核心优势来运转在及的云盘,在一定程度上,Hadoop云计算平台技术已经成了互联网行业的标准。
Hadoop云计算平台技术借助了谷歌的GFS分布式文件系统,重点处理如何借助云计算技术处理海量的数据业务,如何实现TB/PB级别的数据存储,在构建GFS系统的时候,分布式节点搭建在本地系统之上,形成一个具有逻辑性的文件系统,所有的GFS系统都以客户端、主服?掌饕约笆?据块服务器为构成主体,在访问系统文件的时候,从分布式结构的主节点获取数据元信息,截取数据模块信息,从数据块服务器获取直接的文件块,传递给客户端,让客户端与主服务器端之间控制信息流,实现控制流以及数据流的分流,从而降低主要框架节点的负载,为系统的高度并行带来了极大的可能。
Hadoop云计算平台综合了Google和MapReduce的编程模型以及计算框架,在编程的思路上,Hadoop云计算平台与谷歌的编程思想总体是一致的,对大规模的数据进行无依赖关系的集成切分,将切分好的各个节点独立地发送到后续的执行之中,在编程框架的主要节点上运行JobTracker进程,对所有的进程信息进行分解以及调度,负责节点之间的通信,当任务执行失败之后进行重新分配,在Hadoop云计算平台的TaskTracker进程中,本地执行之后将运行的结果发布给JobTracker,接受后者的调度。
Hadoop云计算平台的整个编程框架被分为两个部分,其中之一在于对各个运行节点进行执行分析,掌握各个节点的执行结果对其进行汇总,重点设计Map函数以及Reduce函数。
1.2 Hadoop云计算平台的执行流程与任务调度机制设计
在酒Hadoop云计算平台之上,整个系统有一个主要的节点是Master和若干个Worker,主要的节点负责任务的调度以及协调工作都是根据具体的执行情况设计的,便于与主要的节点进行信息的交互传递。
在执行的过程中,从客户端提供一个作业到Master节点,该节点会自动对数据信息进行收集以及切割,当没有明确数据片大小的时候,默认的每一个数据片的大小是64M,之后数据的自动复制将会带动信息传递到Worker的节点之中。
根据主节点的数据负载情况,将Map函数以及Reduce的任务函数分配到各个空闲的节点之中,将程序传到相对应的工作节点之中,尤其是当程序本身的大小与数据值相差较多的时候,Hadoop云计算平台能够实现高效率的数据平台移动。
在Hadoop云计算平台技术的辅助下,对于传输到的数据首先进行读取,若本地没有存储,可以采用就近的原则读取数据,将计算得出的结果放入缓冲区存储,之后对数据进行整理,取出中间结果,存入到本地的文件系统之中,通过Worker节点以及Master节点寻找最佳的任务进度完成情况以及存储的位置,方便日后对数据的调取以及远程读取。
二、基于Hadoop云计算平台的算法研究
2.1基于Hadoop云计算平台的并行计算
并行计算指的是多个计算单元同时运行带来的计算机处理性能的提高以及速度的加快,通过数据分割,每一个小数据都是用计算单元处理的,并行计算的主要架构有以下
您可能关注的文档
最近下载
- 参考学习资料 建筑环境 贵州省建设工程造价信息2022年第02期.pdf VIP
- 2025年浙江省大学英语三级考试真题 .pdf VIP
- 小学教育专业职业生涯规划书.pptx
- 市政工程单位分部分项工程划分方案11.doc VIP
- 遗传学英文课件:11 群体遗传学英文课件.ppt VIP
- 质量保证措施通用版.docx VIP
- 第四单元《光现象》单元检测题八年级物理上册(人教版2024)(解析版).docx VIP
- 简谱D 想着我Think of Me简谱歌剧魅影.pdf VIP
- (高清版)B-T 40788-2021 船舶与海上技术 海上风能 港口与海上作业.pdf VIP
- 自动化专业职业生涯人物访谈报告.docx VIP
原创力文档


文档评论(0)