- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于Pig Latin语言海量数据分析
基于Pig Latin语言海量数据分析
摘要:随着互联网的飞速发展,分析海量数据的需求变得十分迫切。针对分布式数据库昂贵及Map-Reduce计算框架中代码难以维护、重用等问题,雅虎研发了自己的海量数据分析平台Pig。Pig平台基于Hadoop的Map-Reduce计算框架并提供类SQL的命令式查询语言Pig Latin,该平台为复杂的海量数据并行计算提供了简易的操作和编程接口。本文对Pig Latin语言四种数据模型、常用表达式及关键操作符进行介绍,并结合实例对Pig Latin脚本程序进行分析。
关键词:Pig平台 Pig Latin语言 海量数据 并行分析
中图分类号: 文献标识码:A文章编号:1007-9416(2010)05-0000-00
1 前言
步入网络时代后,企业内部各类数据急剧增长,如何高效的分析海量数据已成为一个亟待解决的问题,如从账单中分析潜在优质客户,从网站日志中分析用户关心的产品和服务。海量数据目前一般通过分布式系统进行存储和处理,如分布式数据库。分布式数据库一般对底层复杂的集群实现进行封装,并向外提供基于SQL的接口。分布式数据库一般需运行在专用服务器上,实施、维护成本高,普通用户将无法承担其高昂的费用。
当下流行的Map-Reduce[1]并行计算框架仅依赖廉价的PC集群便可提供高效、可靠的计算,适于处理海量数据。Hadoop[2]作为Map-Reduce的开源实现系统,正被越来越多的用户使用。由于Map-Reduce是一种通用处理模型,导致用户难以快速实现海量数据分析。首先,用户需为JOIN、GROUP等常用分析过程手动编写代码,这些代码往往不能确保正确且难以维护、重用。其次,海量数据分析任务难以直接分解为Map与Reduce两阶段的处理任务,导致普通开发人员难以编写Map-Reduce程序。再者,由于Map函数和Reduce函数间的界限并不是十分明显,导致系统难以优化。
雅虎于2006年着手研发的Pig[3、4]项目结合分布式数据库及Hadoop系统各自的优点为用户提供一个高效、实用的海量数据分析平台。作为Apache的开源项目,Pig平台基于Hadoop的Map-Reduce计算框架,提供类SQL的编程语言Pig Latin[5]。相比声明式语言SQL,命令式编程语言Pig Latin更符合用户的编程习惯。同时用户编写Pig程序时无需考虑效率问题,Pig平台会对Pig Latin代码自动进行优化。除此之外,Pig Latin支持以Java语言编写的用户自定义函数(UDF),该特性便于用户实现自定义功能。
2 Pig Latin语言
Pig Latin是在Map-Reduce并行计算框架上构建的类SQL高级查询语言。Pig Latin提供四种基本的数据模型,支持常用的表达式,提供类似SQL关键字功能的常用操作符,为用户以命令式编程的方式分析、处理海量数据提供便利。
Pig Latin数据模型包括以下四个部分:
(1)原子值:一个原子值是一个不能分割的值,例如字符串或数字。
(2)元组:一个元组是一组值的序列,这些值可是任意类型,如(‘Pig’,‘1’)。元组可自嵌套,如(‘1’,(‘Pig’,‘Sample’))。
(3)包:一个包是一些元组的集合。包内的元组可重复,如:{(‘1’),(‘1’),(‘2’,‘Sample’)}。
(4)映射:映射是数据项的集合,每一数据项都有相对应的键以用于查找。映射中的数据项可以是不同类型的,但为确保查询效率,关键字必须是原子值。例如在映射[‘key’ #61664; {(‘Pig’),(‘Sample’)},‘age’ #61664; 20]中,键‘key’被映射到一个有两条元组的包,键‘age’被映射到一个原子值。
Pig Latin数据模型允许嵌套使用,用户可根据实际问题定义复杂的数据结构。
Pig Latin支持常用的数据类型及运算,如下所示:
Pig Latin常用关系操作符包括“LOAD”、“FOREACH”、“FILTER”、“JOIN”、“ORDER”、“COGROUP”、“STORE”等,如表2所示。“LOAD”操作符确定要加载的文件,并利用反序列化函数将文件中数据转换为特定结构的元组,最终返回包的句柄。“LOAD”并不立刻加载文件,仅当用户保存结果的时候才加载。“FOREACH”操作符对包内每个元组进行处理,常用来进行初始化或数据转换等工作,最终返回经处理后包的句柄。“FILTER”操作符过滤不符合条件的元组。“JOIN”操作符返回两个或多个包的笛卡尔乘积。“ORDER”操作符根据元组中一个或多个域进行排序。“COGR
您可能关注的文档
最近下载
- 八年级英语上学期期末测试卷 新教材仁爱版.docx VIP
- 小学生学习困难的原因与对策研究教学研究课题报告.docx
- 外研版(2024)七年级上学期英语期末模拟试卷(含答案解析).docx VIP
- 2020年陕西省中考数学试卷【含答案】 .pdf VIP
- 天津医药财务管培生笔试题库.pdf VIP
- 2022年安徽省合肥市高三上学期第一次教学质量检测(一模)理科数学试卷含答案.pdf VIP
- 2024-2025学年深圳高级中学东校区九年级下学期开学考试 数学 试卷(学生版+解析版) .pdf VIP
- 课题开题报告:数字教材研究.docx VIP
- 2025年智慧养老社区设施设备升级改造可行性分析报告.docx
- 课题开题报告:湖北打造职业教育强省的政策建议与实践策略研究.docx VIP
原创力文档


文档评论(0)