通用大数据存储与分析处理平台-Hadoop.docVIP

  • 15
  • 0
  • 约3.78万字
  • 约 53页
  • 2020-11-16 发布于浙江
  • 举报

通用大数据存储与分析处理平台-Hadoop.doc

通用大数据存储与分析处理平台 总体建设方案 (Hadoop) 目 录 TOC \o 2-3 \h \z \t 标题 1,1 Hadoop 概述 Hadoop能做什么 1、搜索引擎(Doug Cutting ?设计Hadoop的初衷,为了针对大规模的网页快速建立索引)。 2、大数据存储,利用Hadoop的分布式存储能力,例如数据备份、数据仓库等。 3、大数据处理,利用Hadoop的分布式处理能力,例如数据挖掘、数据分析等。 4、科学研究,Hadoop是一种分布式的开源框架,对于分布式计算有很大程度地参考价值。 大数据存储 海量数据批量处理: 排序、连接 ETL(去重、转化) 数据挖掘 日志处理 用户细分特征建模 个性化广告推荐 智能仪器推荐 特点 高可靠性。Hadoop按位存储和处理数据的能力值得人们信赖。 高扩展性。Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中。 高效性。Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。 高容错性。Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。 低成本。与一体机、商用数据仓库以及QlikView、Yonghong Z-Suite等数据集市相比,hadoop是开源的,项目的软件成本因此会大大降低。 软件设计 Hadoop 中的文件格式 SequenceFile Sequence API 提供的一种二进制文件,它将数据以key,value的形式序列化到文件中。这种二进制文件内部使用Hadoop 的标准的Writable 接口实现序列化和反序列化。它与Hadoop API中的MapFile 是互相兼容的。Hive 中的SequenceFile 继承自Hadoop API 的SequenceFile,不过它的key为空,使用value 存放实际的值, 这样是为了避免MR 在运行map 阶段的排序过程。如果你用Java API 编写SequenceFile,并让Hive 读取的话,请确保使用value字段存放数据,否则你需要自定义读取这种SequenceFile 的InputFormat class 和OutputFormat class。 图1:Sequencefile 文件结构 SequenceFile读写实例 private static final String [] DATA = { One,Two,buckle my shoe, Three,four,shut the door, up sticks, Seven,eight,lay them straight, Nie,ten,a big fat hen }; public static void writeToHDFS(String[] args) throws IOException { for(int j=1;j=5;j++) { String uri =hdfs://mylinux:9000/data/exam/seq+System.currentTimeMillis(); Configuration conf =new Configuration(); fs = .get(URI.create(uri),conf); Path path =new Path(uri); IntWritable key = new IntWritable(); Text value =new Text(); Sequence writer= null; writer =Sequence(fs, conf, path, key.getClass(), value.getClass()); for(int i=0;i100;i++) { key.set((100-i)*j); value.set(DATA[i%DATA.length]); writer.append(key, value); } } } public static void readFromHDFS(String[] args) throws IOException { String uri =hdfs://mylinux:9000/data/exam/seq; Configuration conf =new Configuration(); fs = .get(URI.create(uri),conf); Path path =new Path(uri); Sequence reader

文档评论(0)

1亿VIP精品文档

相关文档