- 2
- 0
- 约1.17万字
- 约 105页
- 2025-06-20 发布于广东
- 举报
本章主要内容;;7Python与海量数据处理简介;7.1Hadoop与Spark;⑴技术背景
Hadoop是一种分析和处理大数据的软件平台,是Apache下的一个用Java语言所实现的开源软件的加框,在由大量计算机组成的集群中实现了对海量数据的分布式计算。Hadoop已得到了大量的应用,很多企业以及研究机构使用HADOOP框架作为研究对象或者构建自己的云计算服务平台大数据在Hadoop处理的流程可以参照下面简单的图来进行理解,数据是通过了Hadoop的集群处理后得到的结果。;HADOOP作为一个开源项目,其主要产生于Google分布式文件系统GFS以及Google的Map/Reduce编程模式。下面将详细介绍Google分布式文件系统GFS以及Map/Reduce编程模式。
①Google文件系统GFS
作为一个可扩展的分布式文件系统,GFS运行在普通的PC机上组成集群,通过有效的机制提供强大的容错功能并实现高数据吞吐量,从而运用于大型的、分布式的、对大数据量进行访问。由于存在的这些优势,使用GFS可以给大量用户提供高性能的服务。它是组成Google云平台的重要技术。相比以往的文件系统,它主要有以下不同:
;
组件错误作为常态。在大规模的集群中,节点都是由廉价的普通组件组成。这种单独的组件的质量虽然难以应付大规模的客户机访问。可是,一旦将他们组成集群,则可以提供高性能的服务。
由于Google的访问需求,在Google的文件系统上包括了大量的GB级甚至TB级的文件。每个文件通常有包括数以万计的对象,并且是快速增长。所以,GFS必须保证对大型文件的管理和访问要做到高效,快速,达到最佳优化。
GFS文件的读取主要包括对大量数据的流方式的读取和对少量数据的随机方式的读取。随机方式的读取会造成文件访问的性能低下,所以必须通过对少量数据的读操作进行有效的分类并进行批处理的操作而使得读操作稳定的向前流式的推进。
由于GFS写入的数据是大量的连续数据,所以GFS对文件进行写操作,这些写操作一旦完成,文件则很少改动。
GFS系统必须高效的实现大量客户同时向同一个文件添加操作。;图7-2GFS结构图
在GFS文件系统中,大量的运行在用户层服务进程上的Linux机器运行ChunkServer。另外一个节点运行着Master。Master与ChunkServer进行通信。Client客户机通过与Master交换元数据,而直接读取ChunkServer中的数据或者向其中写入数据。;②Map/Reduce编程模式
Map/Reduce编程模型可以使用户在不关心底层细节的情况下方便的开发出分布式计算程序。它简化了并行计算的编程模型,只是向上层用户提供可用的接口,是Google的一项重要技术。
这整个运算过程中,Map/Reduce模型都是使用(key,value)的键值对形式作为输入和输出。Map把用户输入的数据(key,value)通过用户自定义的映射过程转变为一组中间键值对的集合。而Reduce过程则会对生成的临时中间键值对进行规约处理。这个规约的规则也是用户自定义的,通过制定的Reduce函数来实现,最后Reduce会输出最终结果。;⑵Hadoop核心架构
①HDFS
HDFS是一个运行在普通的组件集群上的分布式文件系统,它是HADOOP框架主要的存储系统。对外部客户机而言,HDFS就像一个传统的分级文件系统。可以创建、删除、移动或重命名文件,等等。但是HDFS的架构是基于一组特定的节点构建的,这是由它自身的特点决定的。这些节点包括NameNode(仅一个),它在HDFS内部提供元数据服务;DataNode,它为HDFS提供存储块。由于仅存在一个NameNode,因此这是HDFS的一个缺点(单点失败)。存储在HDFS中的文件被分成块,然后将这些块复制到多个计算机中(DataNode)。这与传统的RAID架构大不相同。块的大小(通常为64MB)和复制的块数量在创建文件时由客户机决定。NameNode可以控制所有文件操作。HDFS内部的所有通信都基于标准的TCP/IP协议。;②Namenode和Datanode
HDFS采用master/slave架构。一个HDFS集群是由一个Namenode和一定数目的Datanodes组成。Namenode是一个中心服务器,负责管理文件系统的名字空间(namespace)以及客户端对文件的访问。集群中的Datanode一般是一个节点一个,负责管理它所在节点上的存储。HDFS暴露了文件系统的名字空间,用户能够以文件的形式在上面存储数据。
Namen
您可能关注的文档
- 精品解析:北京市海淀区2025-2026学年九年级上学期期末语文试题(原卷版).docx
- 精品解析:北京市东城区汇文中学2025-2026学年八年级上学期期中语文试题(解析版).docx
- 通航建筑物运行管理办法2026修订版课件.pptx
- 政府投资基金投向评价管理办法(试行).pptx
- 新能源汽车废旧动力电池回收和综合利用管理暂行办法课件.pptx
- 机械有限公司职业卫生管理制度全套及操作规程.doc
- 黑龙江省行政能力测试真题及答案解析.doc
- 陕西省安全员A证考核试题.docx
- 精品解析:北京市育英学校2024-2025学年七年级下学期期末练习英语试题(解析版).docx
- 精品解析:北京市回民学校2024-2025学年九年级上学期期中语文试题-A4答案卷尾.docx
- 浙江省温州市2024-2025学年七年级上学期语文期末考查卷.docx
- 精品解析:北京市建华实验学校2024-2025学年七年级下学期期中英语试题(原卷版).docx
- 精品解析:北京市通州区2024-2025学年七年级下学期期末考试英语试卷(原卷版).docx
- 精品解析:北京市回民学校2024-2025学年九年级上学期期中语文试题(解析版).docx
- 精品解析:北京市海淀区2025-2026学年九年级上学期期末语文试题(解析版).docx
- 精品解析:北京市东城区汇文中学2025-2026学年八年级上学期期中语文试题(原卷版).docx
- 精品解析:北京市回民学校2024-2025学年九年级上学期期中语文试题(原卷版).docx
- 精品解析:2024-2025学年广东省广州市从化区街口镇中心小学人教版五年级上册期中测试数学试卷(解析版).docx
- 精品解析:北京市通州区2024-2025学年七年级下学期期末考试英语试卷(解析版).docx
- 精品解析:北京市建华实验学校2024-2025学年七年级下学期期中英语试题(解析版).docx
原创力文档

文档评论(0)