4_课程四:海量数据处理-Hive数据仓库重点.ppt

4_课程四:海量数据处理-Hive数据仓库重点.ppt

中科普开HADOOP大数据课程 Hive 数据仓库 暴风公司 数据仓库案例 集群接收日志超过1.2TB/天 3500+任务/日 任务数据吞吐10TB+/天,离线小时数据分析 数据挖掘和用户精分 推荐系统 用户按地域收入年龄性别收入层次划分 广告系统 数据系统的进化-一代 数据系统的进化-二代 数据系统的进化-三代 暴风Hadoop集群架构流程 Scribe nginx+php 使用的Hadoop生态圈 Hadoop 1.0.3基础计算框架 Hive 离线数据分析 95%任务 Pig 离线数据分析 HBase 部分数据的存储 Mahout 数据挖掘 暴风指数 暴风指数 暴风指数 Data Warehousing at Facebook Web Servers Scribe Servers Filers Hive on Hadoop Cluster Oracle RAC Federated MySQL What is Hive 构建于hadoop的hdfs和mapred之上,用于管理和查询结构化/非结构化数据的数据仓库。 使用HQL作为查询接口 使用HDFS作为底层存储 使用MapRed作为执行层 What is Hive Installation and Configuration 安装和配置hadoop集群 下载hive 安装包 解压至安装目录 配置HADOOP_HOME和JAVA_HOME变量 修改存储元数据的数据库(derby、mysql、oracle) Installation and Configuration hive 的元数据存储 hive默认使用内存数据库derby存储元数据,使用时不需要修改任何配置,缺点:hive server重启后所有的元数据都会丢失 hive还执行mysql、oracle等任何支持JDBC连接方式的数据库来存储元数据,需要修改相应的配置项 Installation and Configuration hive 的元数据存储 DDL and DML Operations hive建表语法格式 DDL and DML Operations hive建表语法格式 external 外部表,类似于mysql的csv引擎 partitioned by 指定分区字段 clustered by sorted by 可以对表和分区 对某个列进行分桶操作,也可以利用sorted by对某个字段进行排序 row format 指定数据行中字段间的分隔符 和数据行分隔符 stored as 指定数据文件格式:textfile sequence rcfile inputformat (自定义的inputformat 类) location 指定数据文件存放的hdfs目录 DDL and DML Operations hive建表语句 CREATE TABLE page_view (viewTime INT, userid BIGINT, page_url STRING, referrer_url STRING, ip STRING COMMENT IP Address of the User) COMMENT This is the page view table PARTITIONED BY(dt STRING, country STRING) CLUSTERED BY(userid) SORTED BY(viewTime) INTO 32 BUCKETS ROW FORMAT DELIMITED FIELDS TERMINATED BY \001 COLLECTION ITEMS TERMINATED BY \002 MAP KEYS TERMINATED BY \003 STORED AS SEQUENCEFILE; DDL and DML Operations 删除表 drop table [IF EXISTS] table_name 删除内部表时会删除元数据和表数据文件 删除外部表(

文档评论(0)

1亿VIP精品文档

相关文档