- 0
- 0
- 约小于1千字
- 约 11页
- 2026-01-27 发布于福建
- 举报
第十章数据分析引擎Pig
12什么是Pig?搭建Pig环境3Pig的数据模型4使用PigLatin语句处理数据5Pig的自定义函数
什么是Pig?
第十章数据分析引擎Pig01
什么是Pig?第十章数据分析引擎PigPig是一个用来处理大规模数据集的平台,由Yahoo贡献给ApachePig可以简化MapReduce任务的开发Pig可以看做hadoop的客户端软件,可以连接到hadoop集群进行数据分析工作Pig方便不熟悉java的用户,使用一种较为简便的类似SQL的面向数据流的语言PigLatin进行数据处理PigLatin可以进行排序、过滤、求和、分组、关联等常用操作,还可以自定义函数,是一种面向数据分析处理的轻量级脚本语言Pig可以看做是PigLatin到MapReduce的映射器Pig可以自动对集群进行分配和回收,自动对MapReduce程序进行优化
Pig的体系架构第十章数据分析引擎Pig
Pig与Hive的区别与联系第十章数据分析引擎PigHive更适合于数据仓库的任务,Hive主要用于静态的结构以及需要经常分析的工作。Hive与SQL相似促使其成为Hadoop与其他BI工具结合的理想交集。Pig赋予开发人员在大数据集领域更多的灵活性,并允许开发简洁的脚本用于转换数据流以便嵌入到较大的应用程序。Pig相比Hive相对轻量,它主要的优势是相比于直接使用HadoopJavaAPIs可大幅削减代码量。正因为如此,Pig仍然是吸引大量的软件开发人员。Hive和Pig都可以与HBase组合使用,Hive和Pig还为HBase提供了高层语言支持,使得在HBase上进行数据统计处理变的非常简单
搭建Pig环境
第十章数据分析引擎Pig02
Page?8搭建Pig的环境第十章数据分析引擎Pig安装步骤下载并解压pig安装包(/)设置环境变量工作模式本地模式:pig-xlocalMapReduce模式设置PIG_CLASSPATH环境变量,指向Hadoop的的配置目录启动:pig
Pig的数据模型
第十章数据分析引擎Pig03
Page?10Pig的数据模型第十章数据分析引擎Pig表:Bag行:Tuple列(属性):Field允许表的嵌套不要求每一行具有相同的列
原创力文档

文档评论(0)