火龙果软件-PIG学习记录.docx

火龙果软件-PIG学习记录

PIG学习记录PIG是什么?Pig提供了一个基于Hadoop的并行地执行数据流处理的引擎。Pig运行于Hadoop之上,它同时使用到Hadoop分布式文件系统HDFS和Hadoop处理系统MapReduce。数据类型基本数据类型:int:整型,4字节long:长整型,8字节float:单精度浮点型,4字节double:双精度浮点型,8字节chararray:字符串bytearray:字节串复杂数据类型:Map:map是一种chararray和数据元素之间的键值对映射,其中数据元素可以是任意的pig类型,包括复杂类型。通常使用方括号划定map结构[‘name’# ‘bob’, ‘age’#55]Tuple:tuple是一个定长的,包含有序pig数据元素的集合,一个tuple相当于SQL中的一行,而tuple字段相当于SQL中的列。Tuple常量使用圆括号来指示tuple结构,使用逗号划分字段(‘bob’,55)Bag:bag是一种无序的tuple集合。Bag常量通过花括号进行划分{(‘bob’,55),(‘sally’,52),(‘john’,25)}NULL:表示这个值是未知的模式:加载数据时显示声明模式:dividends = load ‘NYSE_dividends’ as (exchange:chararray,symbol:chararray,date:chararray,

文档评论(0)

1亿VIP精品文档

相关文档