- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
ApachePig平台.PDF
2012 年 10 月
Apache Hadoop* 社区聚焦
Apache* Pig* 平台
Alan Gates 详细说明了Apache* Pig* 平台如何让用户和开发人员能够轻松利用
Apache Hadoop* 框架的强大功能。Alan 是Apache Incubator* 项目管理委员会
(PMC )和Apache* Pig* 项目管理委员会的成员,同时还是Apache HCatalog
项目的顾问,以及Hortonworks 的联合创始人兼架构师。
Apache Pig :面向Hadoop* 框架的高级语言
Pig 平台为创建Apache MapReduce 应用程序提供了一款相对简 Pig Latin :为什么选择另一种编程语言?
单的工具。随着活跃的开源社区对项目的不断投入,Pig 迅速 Pig Latin 是一种非传统的编程语言,专注于数据流而非J ava 或
发展壮大,逐渐成为一种能分析大数据的高级数据流编程语言 Python 等语言所使用的传统编程操作。作为一名Pig Latin 用户,
和执行框架。 您可通过指定一个或多个输入数据集,然后识别出其需要应用
的操作来构建脚本。这些操作可能包括筛选不需要的纪录、合
Pig 平台由Pig Latin 编程语言和基础设施构成,后者能够支持
并两个数据集以及基于特定标准拆分数据集等。您可在图表中
在分布式文件系统上运行的应用程序。
连接特定的操作,以自动找到最佳数据流。然后,您可以定义
• 基础设施层包含一个可用于生成MapReduce 程序的编译器。 如何将数据写出到一个或多个输出源。这对于程序而言是一种
• Pig Latin 是一种高级文本语言,有效简化了编写、理解和维 截然不同的方式。
护程序的工作。从实践应用角度而言,这意味着您可在15
Pig 可使用Hadoop 框架为您管理所有转换和协调工作。首先,
分钟内编写一个Pig 脚本,而如果您采用J ava* 语言编写它,
它将在Pig Latin 脚本上自动执行优化,然后将要求的操作转换
则可能需要花上数个小时。Pig 平台还优化了任务自动执行
成一个或多个 (通常为10 个、20 个甚至是50 个)MapReduce
功能,并支持使用自定义功能进行扩展。
作业。Pig 在Hadoop 集群中运行这些作业,并同时提供进度反
Pig 系统位于Apache Hadoop* 分布式文件系统 (简称Apache 馈和错误信息提示等。
HDFS* )之上。它能够读取来自HDFS 以及其他位置的数据,并
向其写入数据,同时还可运行MapReduce 作业。从本质上来
说,Pig 平台提供了一种与Hadoop 框架轻松进行交互的方式。 “Pig Latin 为不希望使用复杂的J ava* 代码来创建
MapReduce 应用程序的用户提供了一个理想之选。”
—Alan Gates
Pig 与Apache Hive 之比较
用户通常将Pig 平台和Apache Hive* 数据仓库基础设施视为能够
实现相同目标的不同工具。然而事实上,Pig 和Hive 能够提供 Pig Latin 实际使用时有多简单?
不同的分析功能。Hive 在MapReduce 之上呈现了一个结构化查
Pig Latin 为不希望使用更复杂的J
原创力文档


文档评论(0)