ppt课件-google云计算原理.pptVIP

  • 0
  • 0
  • 约3.37千字
  • 约 20页
  • 2017-02-04 发布于四川
  • 举报
ppt课件-google云计算原理

Pig是一个用来处理大规模数据集的平台,和Google的Sawzall类似,由Yahoo!贡献给Apache。 MapReduce的查询框架虽然主要是Map和Reduce两个函数,但是用户从编写程序到在集群中部署、运行,仍然要花费不少时间。 Pig可以简化MapReduce任务的开发,提高在Hadoop集群上进行数据处理的方便程度。 Pig的基本框架 Cluster Pig Latin MapReduce Pig Latin:Pig专用的语言,是类似于SQL的面向数据流的语言。能够对数据进行排序、过滤、求和、分组、关联等功能。 MapReduce:当需要处理海量数据时,先用Pig Latin语言编写Pig Latin程序,然后在Pig中执行 Pig Latin程序。 Pig把用户编写的Pig Latin程序编译成MapReduce作业,上传到集群中运行。 MapReduce虽然是现在处理海量数据的主要方法,但是对于数据处理它仍然存在不足之处。 固定的数据流处理过程 其他操作需要用户自己动手编写 Join, filter, projection, aggregates, sorting, distinct 语义被隐藏在map和reduce函数中,使其难以维护、扩展或者被优化 M R Pig Latin则能很好的解决上述问题。

文档评论(0)

1亿VIP精品文档

相关文档