- 15
- 0
- 约3.78万字
- 约 53页
- 2020-11-16 发布于浙江
- 举报
通用大数据存储与分析处理平台
总体建设方案
(Hadoop)
目 录
TOC \o 2-3 \h \z \t 标题 1,1
Hadoop
概述
Hadoop能做什么
1、搜索引擎(Doug Cutting ?设计Hadoop的初衷,为了针对大规模的网页快速建立索引)。
2、大数据存储,利用Hadoop的分布式存储能力,例如数据备份、数据仓库等。
3、大数据处理,利用Hadoop的分布式处理能力,例如数据挖掘、数据分析等。
4、科学研究,Hadoop是一种分布式的开源框架,对于分布式计算有很大程度地参考价值。
大数据存储
海量数据批量处理:
排序、连接
ETL(去重、转化)
数据挖掘
日志处理
用户细分特征建模
个性化广告推荐
智能仪器推荐
特点
高可靠性。Hadoop按位存储和处理数据的能力值得人们信赖。
高扩展性。Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中。
高效性。Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。
高容错性。Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。
低成本。与一体机、商用数据仓库以及QlikView、Yonghong Z-Suite等数据集市相比,hadoop是开源的,项目的软件成本因此会大大降低。
软件设计
Hadoop 中的文件格式
SequenceFile
Sequence API 提供的一种二进制文件,它将数据以key,value的形式序列化到文件中。这种二进制文件内部使用Hadoop 的标准的Writable 接口实现序列化和反序列化。它与Hadoop API中的MapFile 是互相兼容的。Hive 中的SequenceFile 继承自Hadoop API 的SequenceFile,不过它的key为空,使用value 存放实际的值, 这样是为了避免MR 在运行map 阶段的排序过程。如果你用Java API 编写SequenceFile,并让Hive 读取的话,请确保使用value字段存放数据,否则你需要自定义读取这种SequenceFile 的InputFormat class 和OutputFormat class。
图1:Sequencefile 文件结构
SequenceFile读写实例
private static final String [] DATA =
{
One,Two,buckle my shoe,
Three,four,shut the door,
up sticks,
Seven,eight,lay them straight,
Nie,ten,a big fat hen
};
public static void writeToHDFS(String[] args) throws IOException {
for(int j=1;j=5;j++)
{
String uri =hdfs://mylinux:9000/data/exam/seq+System.currentTimeMillis();
Configuration conf =new Configuration();
fs = .get(URI.create(uri),conf);
Path path =new Path(uri);
IntWritable key = new IntWritable();
Text value =new Text();
Sequence writer= null;
writer =Sequence(fs, conf, path, key.getClass(), value.getClass());
for(int i=0;i100;i++)
{
key.set((100-i)*j);
value.set(DATA[i%DATA.length]);
writer.append(key, value);
}
}
}
public static void readFromHDFS(String[] args) throws IOException
{
String uri =hdfs://mylinux:9000/data/exam/seq;
Configuration conf =new Configuration();
fs = .get(URI.create(uri),conf);
Path path =new Path(uri);
Sequence reader
您可能关注的文档
最近下载
- 社会学分析研究论文精选.docx
- 道路工程监理实施细则.docx
- 2025-2026学年安徽省合肥市包河区九年级(上)期中化学试卷(含答案).pdf VIP
- GB∕T 7936-2012 液压泵和马达 空载排量测定方法.pdf
- 老年人多重用药安全管理专家共识解读.pptx VIP
- SH01-31-2016 上海市建筑和装饰工程预算定额.pdf VIP
- DB44T 2255-2025海岸线价值评估技术规范.pdf VIP
- 霸王茶姬的营销策略研究.doc VIP
- 提高城市道路雨水生态排水系统施工质量一次合格率.doc VIP
- 2025年无人机驾驶员执照航拍摄影中的构图与避障情景意识专题试卷及解析.pdf VIP
原创力文档

文档评论(0)