- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
文档密级
大数据集群部署:虚拟机 vs 物理机
下面重点分析虚拟机集群和物理服务器集群部署大数据的优缺点:
一、 物理服务器集群部署大数据
图 1 X86 服务器集群
单台 X86 服务器的存储和计算能力已经无法满足海量数据存储和快速计算能力的要求, 需要多台 X86 服务器
组成集群进行横向扩展和分布式计算, X86 物理服务器集群在大数据处理上具备很多优势:
1. 海量数据存储能力:物理服务集群采用 share-nothing 技术架构,集群可以实现 Scale out 横向扩展,
集群主机数量从几台到几千台规模,采用服务器本地硬盘及分布式存储技术可以支持 PB、EB级海量数
据存储能力。
2. 快速数据计算能力:大数据集群注重计算和存储在同一个节点,大数据可以按照哈希分片( Hash
Partition )、虚拟桶 (Virtual Buckets) 等算法将数据有序存储在集群中的数据节点上,当调用大量数
据进行分布式计算时, 需要在数据节点上完成所在节点数据的计算, 即需要计算节点和数据节点部署的
同一个节点,这样才能实现计算向数据靠近, 计算的过程中减少数据的移动, 实现快速数据读取和计算。
物理服务器集群采用本地计算资源和本地硬盘资源, 将计算节点和数据节点部署在同一个节点, 满足计
算向数据靠近的原则,计算过程中减少数据在服务器之间的移动,降低网络 I/O ,实现快速数据读取和
计算。
3. 高速数据吞吐能力: 为每台物理服务器节点配置多块硬盘, 每块硬盘具备独立的 I/O 能力, 支持数据并
行读写,实现高速数据吞吐能力。
4. 高速网卡带宽能力: 大数据集群采用分布式计算架构, 节点之间存在大量的数据交换, 通常会要求网卡
满负荷运作,物理机可以通过多万兆网卡负荷分担来提高网络带宽。
二、 虚拟机集群部署大数据
2018 年 3 月 12 日 新华三机密,未经许可不得扩散 第 1 页 共 2 页
文档密级
虚拟机技术目标和大数据的技术要求实际上是背离的, 虚拟机以提升服务器资源利用率为目标, 把单台服务
器物理资源虚拟化成多个逻辑资源, 并分配给不同 APP使用; 而大数据技术要求构建多服务器集群进行分布式存
储和计算来解决单台服务器的存储和计算能力不足问题。虚拟机集群部署大数据集群时面临的下列问题:
图 2 统一存储虚拟机集群
1. 数据存储能力有限:统一存储设备采用共享存储方式,存储容量通过 Scale up 纵向扩展,可以支持几
百 T 数据存储能力,不能支持 PB、EB 级海量数据。此外,统一存储成本相比 X86 的本地硬盘要昂贵。
2. 数据计算能力降低: Hadoop、MPP等大数据均采用分布式计算框架,需要通过大数据集群的多个主机分
担同一个计算任务, 并且主机的计算资源越强则大数据的处理性能就越快。 把单台服务器物理资源虚拟
化成多个虚拟机资源, 单个虚拟主机的计算能力降低。 在相同主机数量的情况下, 虚拟机集群计算性能
也会比物理机集群计算能力要低。此外,虚拟化处理 hypervisor 也会消耗 5%-10%的服务器性能。
3. 数据吞吐能力有限:大数据集群每次执行计算任务时,都需要把大容量的数据从磁盘读到主机内存中,
文档评论(0)