4_课程四：海量数据处理-Hive数据仓库重点.ppt

下载文档 降价啦

3
0
约1.31万字
约 66页
2016-08-11 发布于湖北
举报
保障服务

4_课程四：海量数据处理-Hive数据仓库重点.ppt

中科普开HADOOP大数据课程 Hive 数据仓库暴风公司数据仓库案例集群接收日志超过1.2TB/天 3500+任务/日任务数据吞吐10TB+/天，离线小时数据分析数据挖掘和用户精分推荐系统用户按地域收入年龄性别收入层次划分广告系统数据系统的进化-一代数据系统的进化-二代数据系统的进化-三代暴风Hadoop集群架构流程 Scribe nginx+php 使用的Hadoop生态圈 Hadoop 1.0.3基础计算框架 Hive 离线数据分析 95%任务 Pig 离线数据分析 HBase 部分数据的存储 Mahout 数据挖掘暴风指数暴风指数暴风指数 Data Warehousing at Facebook Web Servers Scribe Servers Filers Hive on Hadoop Cluster Oracle RAC Federated MySQL What is Hive 构建于hadoop的hdfs和mapred之上，用于管理和查询结构化/非结构化数据的数据仓库。使用HQL作为查询接口使用HDFS作为底层存储使用MapRed作为执行层 What is Hive Installation and Configuration 安装和配置hadoop集群下载hive 安装包解压至安装目录配置HADOOP_HOME和JAVA_HOME变量修改存储元数据的数据库（derby、mysql、oracle） Installation and Configuration hive 的元数据存储 hive默认使用内存数据库derby存储元数据，使用时不需要修改任何配置，缺点：hive server重启后所有的元数据都会丢失 hive还执行mysql、oracle等任何支持JDBC连接方式的数据库来存储元数据，需要修改相应的配置项 Installation and Configuration hive 的元数据存储 DDL and DML Operations hive建表语法格式 DDL and DML Operations hive建表语法格式 external 外部表，类似于mysql的csv引擎 partitioned by 指定分区字段 clustered by sorted by 可以对表和分区对某个列进行分桶操作，也可以利用sorted by对某个字段进行排序 row format 指定数据行中字段间的分隔符和数据行分隔符 stored as 指定数据文件格式：textfile sequence rcfile inputformat (自定义的inputformat 类) location 指定数据文件存放的hdfs目录 DDL and DML Operations hive建表语句 CREATE TABLE page_view (viewTime INT, userid BIGINT, page_url STRING, referrer_url STRING, ip STRING COMMENT IP Address of the User) COMMENT This is the page view table PARTITIONED BY(dt STRING, country STRING) CLUSTERED BY(userid) SORTED BY(viewTime) INTO 32 BUCKETS ROW FORMAT DELIMITED FIELDS TERMINATED BY \001 COLLECTION ITEMS TERMINATED BY \002 MAP KEYS TERMINATED BY \003 STORED AS SEQUENCEFILE; DDL and DML Operations 删除表 drop table [IF EXISTS] table_name 删除内部表时会删除元数据和表数据文件删除外部表（

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

4_课程四：海量数据处理-Hive数据仓库重点.ppt