Hive数据仓库应用教程高职全套教学课件.pptx

Hive数据仓库应用教程高职全套教学课件.pptx

;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;例题3:向浏览信息表pageviews中插入2条新记录,分别是(jsmith,,)和(jdoe,,null),,并更新表中的2条记录(tjohnson,,,2021-08-04)和(tlee,,null,2021-08-04)。

操作过程:

step01:创建浏览信息表pageviews

创建本例题所需要的浏览信息表pageviews,具体操作命令如下:

hiveCREATETABLEpageviews(

useridVARCHAR(64),

linkSTRING,

came_fromSTRING

)PARTITIONEDBY(stat_dateSTRING)CLUSTEREDBY(userid)INTO256BUCKETSSTOREDASORC;

step02:查看浏览信息表pageviews

查看创建的浏览信息表pageviews是否成功,具体操作命令如下:

hiveSHOWTABLES;

step03:查看浏览信息表pageviews的数据

查看创建的浏览信息表pageviews的数据,具体操作命令如下:

;hive SELECT * FROM pageviews;

上述步骤的操作过程和操作结果如下图5-4所示,由操作结果可以看出,目前,浏览信息表pageviews创建成功,且表中无数据。;

step04:将数据插入到浏览信息表pageviews中

将数据插入到浏览信息表pageviews中,具体操作命令如下:

hive INSERTINTOTABLEpageviewsPARTITION(stat_date=2021-08-04)

VALUES(jsmith,,),(jdoe,,null);

step05:查看表中的数据

查看浏览信息表pageviews中的数据,具体操作命令如下:

hive SELECT * FROM pageviews;

上述步骤的操作过程和操作结果如下图5-5所示,由操作结果可以看出,目前,浏览信息表pageviews插入2条新数据成功,且2条数据全部插入到分区2021-08-04中。;图5-5再次查看浏览信息表pageviews中的数据

;

step06:将更新的数据插入到浏览信息表pageviews中

将需要更新的2条新数据插入到浏览信息表pageviews中,具体操作命令如下:

hive INSERT INTO TABLE pageviewsPARTITION(stat_date=2021-08-04)

VALUES(tjohnson,,),(tlee,,null);

step07:查看表中的数据

再次查看浏览信息表pageviews中的数据,具体操作命令如下:

hive SELECT * FROM pageviews;

上述步骤的操作过程和操作结果如下图5-6所示,由操作结果可以看出,目前,浏览信息表pageviews更新插入的2条新数据成功,且2条数据全部插入到分区2021-08-04中。;图5-6再次查看浏览信息表pageviews中更新后的数据

直接向表中插入数据这种导入数据的方式,强烈不推荐使用,插入速度极其缓慢,一般在插入少量测试数据的情况下使用。;二、通过Load加载数据

Hive是一种底层封装了Hadoop的数据仓库处理工具,使用类SQL的HiveSQL语言实现数据查询。Hive在加载数据过程中不会对数据进行任何的修改,只是将数据移动到HDFS中Hive设定的目录下,因此,Hive不支持对数据的改写和添加,所有的数据都是在加载的时候确定的。

Hive在向表中装载数据的时候,除了直接向表中插入数据的方式之外,还可以通过Load加载数据。

1.通过本地将数据文件加载到Hive表中

在使用Hive进行操作过程中,有时候需要将本地文件装载到Hive表中,那么,可以使用Load语句加载数据。

1)语法格式

LOAD DATA [LO

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档