网站大量收购独家精品文档,联系QQ:2885784924

Pig编程指南.docx

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Pig编程指南

Pig编程指南1.简介什么是pig?Pig在HadoopPig Latin,并行的数据流语言Pig使用案例Pig体系Pig的历史2.安装和运行pig下载和安装pig从Apache上下载pig安装包从云上下载下载源代码运行pig单机运行在hadoop集群上运行在云上运行命令行和参数设置返回代码3.Grunt在Grunt中加入Pig Latin在Grunt中使用HDFS命令在Grunt管理pig4.pig的数据模型类型标量类型(Scalar Types)复合类型空类型模式计算5.Pig Latin的介绍准备事件大小写敏感注释输入和输出加载(Load)存储(Store)转储(dump)相关运算ForeachFilterGroupOrder by DistinctJoinLimitSampleParallel用户自定义函数注册UDFs定义和UDFs调用静态java函数6.高级Pig Latin高级关系设置Foreach的高级特征使用不同的关联的实现CogroupUnionCrossPig与已有程序、mapReduce的结合StreamMapreduce非线性数据流执行管理Set设置分区Pig Latin 预处理系统参数代换宏命令嵌入其它Pig Latin脚本7.开发和测试Pig Latin 脚本开发工具语法高亮检查描述解释计划举例说明Pig统计信息MapReduce 任务状态调试提示用PigUnit测试你的脚本8.Pig调优让你的脚本表现的更好尽早经常的过滤尽早经常的Project适当的join合理的使用子查询选择正确的数据类型选择正确的平行级别完善你的自定义函数UDF在任务中协调pig和hadoop压缩中间结果优化数据格式处理异常记录9.在python中嵌入pig Latin编译Bind绑定多个变量运行带多个参数运行公共方法10.写评估和过滤函数用java写评估函数写自定义函数评估函数基本信息输入和输出模式错误处理和进程报告超载的UDF评估函数的内存问题11.编写load和store函数Load 函数前端的功能规划从前端到后端传递信息后端数据解读其它Load函数特性Store函数Store函数前端规划Store函数和UDFContext写数据故障清除存储元数据12.pig和hadoop社区的其它成员Pig和hiveCascadingNoSQL 数据库HbaseCassandraHadoop的元数据库A.内置自定义函数和PiggybankB.Hadoop概观序言简介什么是pigPig提供在hadoop上并行执行数据流的引挚。它包括一种语言:Pig Latin,用来表述数据流转。Pig Latin包括传统的数据操作(join,sort,filter,等),也能为用户提供用来读,写,处理数据的自定义函数。Pig是apache的开源项目,这意味着用户可以免费下载源代码或编译后的程序,可以使用,分发,而且在apache的许可下,在自己的项目中使用或更改。Pig on HadoopPig在hadoop中运行,它利用hadoop分布式文件系统 hdfs和hadoop处理系统mapReduce.Hdfs是一个分布式文件系统,在hadoop集群的各个节点上存储文件。它

文档评论(0)

xcs88858 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:8130065136000003

1亿VIP精品文档

相关文档