8.1 了解pig的基本概念.pptxVIP

  • 11
  • 0
  • 约1千字
  • 约 5页
  • 2020-08-21 发布于湖北
  • 举报
Pig数据分析平台 单元目录 4 2 3 了解Google Bigtable思想 随着Hadoop的普及和其生态系统的不断壮大,Hadoop 在MapReduce应用编写领域也不断进步。虽然编写Map和Reduce应用程序并不十分复杂,但这些编程确实需要一些软件开发经验,且开发周期很长。而Apache Pig项目改变了这种状况,它在MapReduce的基础上创建了更简单的过程语言抽象,为Hadoop应用程序提供了一种更加接近结构化查询语言 (SQL) 的接口,通过Pig可以仅向控制台发出六条Pig Latin,就可以处理TB级的数据。因此,你不需要编写一个单独的MapReduce应用程序,而可以用 Pig Latin 语言写一个脚本,在集群中自动并行处理与分发该脚本。 Pig被设计成是可扩展的。处理路径中所有部分几乎都是可定制的:装载、存储、过滤、分组、排序和链接都可以使用用户定义函数(UDF)。这些功能在Pig的内嵌数据模型上工作,所有它们可以与Pig的平台紧密结合在一起。另一个好处是与为MapReduce程序开发的库相比,UDF可重用。 Pig并不适合所有的数据处理任务,但是,就像MapReduce一样,它是专门用于数据的批处理。如果想在一个巨大的数据集中做一个只涉及小部分数据的查询,那么Pig并不适合,因为它会扫描整个或者很大一部分数据集。 Pig也不执行MapReduce中的程序。由于Pig是一个MapReduce作业查询的编译系统,因此,不可避免地会带来一些系统开销。然而,目前版本的Pig的优化策略能降低这个开销而不需要更改Pig查询。 4 了解Google Bigtable思想 系统架构 Pig从系统功能来看主要分为以下5个功能: 装载(Load):是将一个有格式的文件加载到Pig系统中。 存储(Store):是将一个有格式的数据存储从Pig系统中存到一个目录中。 计算:Pig中的计算包括求平均值、求最大、求最小、记录数计算、字段数计算、字段连接、字段比较等算法。在处理这些计算时可以采用循环和过涉两种方式处理。 描述:描述包括结构关系描述(DESCRIBE)、命令的作用描述(EXPLAIN)和结果输出到屏幕(DUMP)三种描述结构、作用和数据结果的方式。 跟踪(ILLUSTRATE):是对Pig的某个计算的处理过程加以显示。 Thanks

文档评论(0)

1亿VIP精品文档

相关文档