国科大Hadoop作业.pdfVIP

  • 29
  • 0
  • 约1.63万字
  • 约 29页
  • 2017-07-10 发布于浙江
  • 举报
国科大Hadoop作业

运行环境:在 windows 10/64bit 上安装虚拟机,运行 Ubuntu Linux 14.04.2,JDK 1.7,Hadoop 2.6.0 ,HBase 0.98 等 在单机上构成伪分布式环境 目的:学习Hadoop 和HBase 的基本编程使用。 在Hadoop 框架下,采取Mapreduce 模式处理数据。 学习java 语言的基本编程使用。 运行实例①:从HDFS 中读取文件,进行中间处理,然后写入HBase 数据库。 ①从HDFS 中读取文件。如图所示, 以part.tbl 表为例,可以看出,每一行是一个关系型记录,每个 列用|分开。从第0 列开始计数。 主要处理:从HDFS 中读取文件操作。 ②写入HBase 数据库。 首先了解HBase 数据模型,如图所示, key 包括row key 与column 两部分。 所有的row key 是按顺序存储的。 其中column 又有column family 前缀。而column family 是需要 事先声明的,种类有限(例如~ 10 或~ 100),column key 可以有很 多。 具体存储时,每个c

文档评论(0)

1亿VIP精品文档

相关文档