- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第六次课:Hbase的基本原理
刘春
计算机与信息工程学院数据科学系
河南省时空大数据产业技术研究院
河南大学
报告提纲
Hbase概述
Hbase的数据模型
上节课知识点回顾
Hbase的架构与运行机制
操作系统的一部分
是一个软件程序
在用户和计算机的存储设备之间建立桥梁
主要职责
建立了一个硬盘等存储设备中存储内容的目录结构
一般采用树形结构,表示存储内容的不同层次
目录中的每个组成项称为一个文件,目录的树形结构也存储了文件之间的关系
提供了相应的命令和接口来便于用户对存储设备的读写操作
什么是文件系统
当面临海量的数据时…..
什么是分布式文件系统
单台计算机的文件系统可能无法存储所有的数据!
分布式文件系统
利用网络将大量的计算节点互联,
向下将各个节点中的存储容量进行集中管理,向上为用户提供透明化服务,
人们在使用分布式文件系统时,就像使用本地文件系统一样,无需关心数据是存储在哪个节点上、或者是从哪个节点从获取的
Hadoop Distributed File System,Hadoop分布式文件系统
HDFS分布式文件系统
什么是MapReduce
Hadoop下的一个负责分布式计算的组件
一个软件系统,运行于HDFS之上
定义了一种实现分布式计算的框架
负责计算任务在集群中的分配调度、负载均衡、容错处理、网络通信等一系列问题
方便编程人员在不熟悉分布式并行编程的情况下,能够编写程序对分布式环境下的大数据进行处理
MapReduce分布式计算框架
MapReduce框架
将分布式环境下的并行大数据处理过程抽象为两个函数:map和reduce
Map: key1,value1 key2, value2
Reduce: key2,value-list key3, value3
MapReduce计算过程
Shuffle阶段
Map端的Shuffle过程
reduce端的Shuffle过程
MapReduce的架构与运行流程
Hadoop资源管理器:yarn
任务管理进程
客户端
HDFS
MapReduce程序示例--wordCount
Java类文件
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.*;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import java.io.IOException;
import java.util.StringTokenizer;
public class WordCount {
public static class MyMapper extends MapperObject, Text, Text, IntWritable{
private final static IntWritable one = new IntWritable(1);
private Text word = new Text();
public void map(Object key, Text value, Context context)
throws IOException, InterruptedException {
StringTokenizer itr = new StringTokenizer(value.toString());
while (itr.hasMoreTokens()) {
word.set(itr.nextToken());
//将结果写入context
context.write(word, one);
}
}
}
。。。。。。
MapReduce程序示例--wordCount
Java类文件
//自定义Reduce类,主要是在类中重载reduce函数。
public static class M
您可能关注的文档
- 《大数据基本处理框架原理与实践》PPT课件(共16次课)第八次课:Spark的基本原理.ppt
- 《大数据基本处理框架原理与实践》PPT课件(共16次课)第二次课:HDFS.ppt
- 《大数据基本处理框架原理与实践》PPT课件(共16次课)第九次课:Scala语言与Spark基本操作.ppt
- 《大数据基本处理框架原理与实践》PPT课件(共16次课)第七次课:Hbase的实践操作.ppt
- 《大数据基本处理框架原理与实践》PPT课件(共16次课)第三次课:MapReduce概述.ppt
- 《大数据基本处理框架原理与实践》PPT课件(共16次课)第十次课:Spark的进一步实践.ppt
- 《大数据基本处理框架原理与实践》PPT课件(共16次课)第十二次课:Spark的进一步实践3.ppt
- 《大数据基本处理框架原理与实践》PPT课件(共16次课)第十六次课:Spark的进一步实践3 - 带代码.ppt
- 《大数据基本处理框架原理与实践》PPT课件(共16次课)第十三次课:Spark streaming的基本原理.ppt
- 《大数据基本处理框架原理与实践》PPT课件(共16次课)第十四次课:Spark streaming的实践操作.ppt
- 《大数据基本处理框架原理与实践》PPT课件(共16次课)第十五次课:课程复习与总结.ppt
- 《大数据基本处理框架原理与实践》PPT课件(共16次课)第十一次课:Spark的进一步实践2.ppt
- 《大数据基本处理框架原理与实践》PPT课件(共16次课)第四次课:Hadoop的数据类型与输入格式.ppt
最近下载
- 初中英语《比较级和最高级》课件.pptx VIP
- 13、公路工程预算定额JTG-T B06-03-2007.doc VIP
- 微信公众号外包方案.docx VIP
- 2008年修电脑1400张照片连接.docx VIP
- 抽水试验报告-1.docx
- 可行性研究报告财务分析自动计算电子表格资料.xls VIP
- 方正证券-电子行业深度报告:光刻胶研究框架2.0,详解上游单体、树脂、光酸、光引发剂-220125.pdf VIP
- 2025年中国康复医疗产业市场前景分析与投资建议报告.docx
- 奶牛养殖场建设项目可行性实施报告可行性实施报告.docx
- 2025年中国共青团入团团员必知知识考试题与答案 .pdf VIP
文档评论(0)