- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
使用VMware Esxi及Hadoop进行大数据平台搭建探究
使用VMware Esxi及Hadoop进行大数据平台搭建探究 摘要:对于VMware Esxi与Hadoop进行大数据平台的搭建,该文主要考虑到实验室的成本以及对于监控集群的方便性的操作,并最大程度的利用机器的性能。同时还要结合Linux系统本身的机制以及文件同步系统来对平台进行快速地搭建,最后进行集群的测试,验证平台的可操作性以及使用性
关键词:VMware Esxi;Hadoop;大数据平台;研究
互联网与物联网等新技术的快速发展,人们对于数据已经进入了一个爆炸的状态,数据量的增长已经呈现出指数性的增长。因此来说,如何对如此庞大的数据量进行计算成了人们需要面对的一个问题。使用传统的计算模式显然是无法实现的,当前市面上使用比较广泛的一些关系型数据库也不能实现对这些海量数据的存储。此时就需要人们研究一种新的实施方案,来对这些海量的数据进行存储于管理。而Hadoop公司已经实现了谷歌公司的GFS,使用它可以很方便的来处理这些问题。通常情况下,人们都是在分布式的集群上搭建大数据应用平台而Hadoop则需要更多的配置文件,如果在分布式集群上进行搭建就需要不断的对配置进行修改,显然是非常繁琐的,对于这个问题,本文提出了使用VMware Esxi与Hadoop进行结合的办法,希望能对这个问题实现完美的解决方案
1.VMware Esxf与Hadoop
VMware Esxi是可以在服务器的硬件上建立的一个虚拟机系统,在进行建立的时候并通常是用宿主的操作系统进行支持的,因此它就拥有了更高的稳定性,却也不会损耗机器的重要性能VMware Esxi能够建立多个虚拟机系统的,每一个独立的虚拟机都可以有自己独立的操作系统与应用程序,在对Esxi系统进行安装之后,就可以登录进行操作,此时就可以创建一些虚拟机或者是陕照了
Hadoop属于Apache公司,是Apache开发的一个比较开源的分布式的系统架构,主要的作用是可以提供接口与数据服务给应用程序,具有稳定性高与性能可靠的优势。Hadoop的组成主要有两部分,一是HDFS,即Hadoop Distributed file System,二是Hadoop MapReduce。这两部分中的HDFS属于Hadoop的分布式文件系统,主要使用的架构方式是主从方式,通常是包括一个控制节点以及多个数据节点。其中控制节点负责对文件系统的命名空间进行管理,主要是对所有的文件所在的数据节点的信息进行记录。而数据节点的主要任务则是对数据进行存储。MapReduce则是整个HadoopDE计算引擎,当然也是分布式的有了它就可以对数据进行并行的处理,主要的实现思想用中国的一句话将就是分而治之,根据名字来对处理的阶段进行区分主要分为两个阶段,一个是map阶段,一个是reduce阶段,map阶段的主要工作概括起来就是一个分字,就是把输入来的诸多并行任务分成更多的map,l’edttce的工作的内容则是将map的阶段性的工作成果进行一个汇总
2.搭建平台
1)需要的硬件以及其他准备工作。对这套大数据平台的搭建所需要的硬件条件需要有联想服务器若干与至少一台的IBM的服务器,而且要求IBM的服务器的性能是非常过关的,因为需要当做主节点,其余的联想服务器都需要单独的构造出两个从节点,并使之能够运行DataNode。这么多的服务器需要进行统一的管理,需要给每台服务器预先安装VMware Esxi系统,其他的诸如静态IP、用户名密码都需要一并设置好,做好这些工作之后,就可以使用远程客户端进行登录操作了
可以使用光盘安装VMware,本文所介绍的是5.1版本的Esxi系统,需要注意的是在对系统进行安装成功并对服务器进行重启操作之后,如果没有启动盘或者是其他必要的设备,这就要对系统进行再次安装,这时可以在安装系统之时加上for-matwithnbr。对系统安装成功之后还需要必要的设置,主要有主机名、静态IP以及登录账户名与密码,将这些必须的参数配置完毕之后,就能够使用远程客户端访问了,除此之外也可以在客户端上安装vSphere Client的机器上,这样可以使管理员的工作更加方便
2)创建虚拟机与安装Linttx系统。首先需要在IBM的服务器上创建一个单独的虚拟机,而其余的服务器上则需要创建两个,相信对创建虚拟机都是比较熟悉的,创建完成之后就可以根据本地的镜像文件安装Linux了,而一个镜像文件是能够支持多个虚拟机的,也就是说可以同时安装多个虚拟机,这样做可以很大程度的提升安装的速度,也就能省下很大部分的安装时间。本文介绍的大数据平台用到的Linux系统是6.5版本的,在安装的时候需要注意的是,不能忽略了对系统主机名与静态IP以及启动时时间的同步等问题
3)Hadoop的安装。本套大数据平
文档评论(0)