e4_34 pig数据分析平台2课件75 - pig数据分析平台2.pptVIP

e4_34 pig数据分析平台2课件75 - pig数据分析平台2.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于Greenplum Hadoop 分布式平台的大数据解决方案 Greenplum Hadoop 讲师:迪伦(北风网版权所有) Pig数据分析平台(2) 使用Pig Pig数据模型 常用Pig Latin命令 课程目标 脚本方式 MapReduce模式下运行该脚本 Pig支持运行存放在集群中的脚本文件 嵌入式方式 Pig命令可以嵌入到其他语言中运行 需要先编写特定的Java程序,在Java程序中嵌入Pig命令代码,然后将该嵌入式程序编译成对应class文件或package包,最后调用main函数运行 本地模式下 $ java -cp pig.jar org.apache.pig.Main -x local script.pig MapReduce模式下 $ java -cp pig.jar org.apache.pig.Main script.pig $ java -cp pig.jar org.apache.pig.Main -x mapreduce script.pig Pig数据模型 Pig的数据模型包括4种组织形式: 域(Field),存放一个原子的数据,可以是一个字符串,一个数字等。例如,’lucy’ 元组(Tuple),Field的序列,其中的每一个Field可以是任何一种数据类型,例如,(‘lucy’,’1234’) 包(Bag),Tuple的集合,每个Tuple可以包含不同数目不同类型的Field。例如: 关系(Relation),实际也是包,是一个外部包 4种数据模型的关系:RelationBagTupleField 数据类型 如果没有显示的给某个Field赋值,默认将赋予bytearray类型 当用AS载入数据时,Pig将会尝试把数据转换为指定的数据类型,如果转换失败,将会产生一个NULL值或者报错 运算符 算术运算符 常见类型:+,-,*,/,% bincond运算符“?”,例如:(f1=2?1:count(a))。操作结果是如果满足条件“f1==2”,则返回1,否则返回a中tuple的数量。 比较运算符 常用Pig Latin操作命令 LOAD:载入原始数据 将原始数据文件内容转换为Pig的数据模型 语法:LOAD ‘data’[USING function] [AS schema] data表示文件或目录,[]内容是可选项 USING指定分隔符,默认用’\t’ AS指定名称和数据类型 LOAD命令的返回值是一个bag的句柄 输入LOAD命令后,pig并没有真正地执行它,仅仅解析了命令 DUMP:将结果显示到屏幕 常用Pig Latin操作命令 FOREACH 通过这个命令对输入数据中的Tuple逐个进行处理 通常使用”FOREACH...GENERATE”组合来对数据进行操作 例如,将A的name、score两个field赋给B FILTER:过滤数据 STORE:将结果保存在文件系统中 欢迎访问我们的官方网站

文档评论(0)

136****1820 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档