大数据分析教程 课件.pptVIP

  • 4
  • 0
  • 约4.66千字
  • 约 28页
  • 2020-07-28 发布于天津
  • 举报
大数据竞赛培训之数据分析 2018 讲师:赵利平 日期: 2018 年 11 月 11 日 目录 CONTENTS 原理介绍 1 学习目标 2 前期准备 3 数据分析 4 原理介绍 01 原理介绍 本次数据分析是采用 Hive 进行的, Hive 是建立在 Hadoop 上的数据仓库基础 构架。它提供了一系列的工具,可以用来进行数据提取转化加载( ETL ),这是 一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。 Hive 定义了简单的类 SQL 查询语言,称为 HQL ,它允许熟悉 SQL 的用户查 询数据。同时,这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer 来处理内建的 mapper 和 reducer 无法完成的复杂的分析工作。 Hive 的 Sql 语 句 HDFS 解释为 mapreduce 学习目标 02 掌握将本地文件上传至 hdfs 指定路 径技能 掌握创建 hive 表,并将本地数据 信息导入技能 掌握创建表获取指定格式、指定 信息技能 掌握转化率计算等函数 学习 目标 学习目标 前期准备 03 3.1hive 基本操作 进入 hive 安装目录 cd /usr/hive/apache-hive-2.1.1-bin/ 启动 hive client(master 上 ) bin/hive 查看数据库列表 show database s ; 3.1hive 基本操作 建数据库 create database hongya; // 创建数据库 hongya show databases; // 查看数据库,发现有库 hongya use hongya; // 使用 hongya 数据库 3.2 查看样例数据 user_id age_range gender merchant_id label activity_log 34176 6 0 944 -1 408895:1505:7370:1107:0 34176 6 0 412 -1 17235:1604:4396:0818:0 # 954723:1604:4396:0818:0 # 275437:1604:4396:0818:0 # 236488:1505:4396:1024:0 原始数据表: train_format2.csv 数据 user_id age_range gender merchant_id label activity_log 34176 6 0 944 -1 408895:1505:7370:1107:0 34176 6 0 412 -1 17235:1604:4396:0818:0 34176 6 0 412 -1 954723:1604:4396:0818:0 34176 6 0 412 -1 275437:1604:4396:0818:0 34176 6 0 412 -1 236488:1505:4396:1024:0 中间表 1 :初步创建表将 activity_log 中以‘ # 分割的数据拆成多行数据 user_id age_range gender merchant_id label item_id category _id brand_id time_stamp action_type 34176 6 0 944 -1 408895 1505 7370 1107 0 34176 6 0 412 -1 17235 1604 4396 818 0 中间表 2: 将拆成行的数据 activity_log 中以‘:分割的数据拆分成元素 3.3hive 操作 -- 创建表 创建比赛数据表 match_data ,要求表结构与提供的数据结构一样,信息包 含用户 iduser_id 、用户性别 gender 、商家唯一 id merchant_id 、购物者标签 label ,均为为 int 类型,用户与商家交互信息 activity_log 为 varchar 类型。 create table match_data( user_id int, age_range int, gender int, merchant_id int, label int, activity_log varchar(1000) ) row format delimited fields terminated by ,; 3.4hive 基本操作—导入数据 将 root 下的 train_format2.csv 数据导入到创建的 match_data 表中 load data local inpath /root/train_format2.csv overwrite in

文档评论(0)

1亿VIP精品文档

相关文档