- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Apache Pig TOKENIZE()函数
Apache Pig TOKENIZE()函数
Pig Latin的 TOKENIZE() 函数⽤于在单个元组中分割字符串 (其中包含⼀组字),并
返回包含拆分操作输出的包
语法
下⾯给出了 TOKENIZE() 函数的语法
grunt TOKENIZE(expression [, field_delimiter])
作为 TOKENIZE() 函数的分隔符,我们可以传递空格[] ,双引号[“] ,逗号 [,] ,括号
[()] ,星号[*]
例
假设在HDFS ⽬录 /pig_data/ 中有⼀个名为 student_details.txt 的⽂件,如下所⽰ 此
⽂件包含学⽣的详细信息,如id ,姓名,年龄和城市 如果我们仔细观察,学⽣的姓
名包括⽤空格[]分隔的名字和姓⽒
student_details.txt
1,Rajiv Reddy,21,Hyderabad
2,siddarth Battacharya,22,Kolkata
3,Rajesh Khanna,22,Delhi
4,Preethi Agarwal,21,Pune
5,Trupthi Mohanthy,23,Bhuwaneshwar
6,Archana Mishra,23 ,Chennai
7,Komal Nayak,24,trivendram
8,Bharathi Nambiayar,24,Chennai
通过关系 student_details 将此⽂件加载到的Pig 中,如下所⽰
grunt student_details = LOAD hdfs://localhost:9 /pig_data/stud
as (id:int, name:chararray, age:int, city :chararray);
拆分字符串
我们可以使⽤ TOKENIZE() 函数拆分字符串 作为⽰例,让我们使⽤此函数分割名
称,如下所⽰
grunt student_name_tokenize = foreach student_details Generate T
验证
使⽤ DU P 运算符验证关系 student_name_tokenize ,如下所⽰
grunt Dump student_name_tokenize;
输出
它将产⽣以下输出,显⽰关系 student_name_tokenize 的内容如下
({(Rajaiv),(Reddy)})
({(siddarth),(Battacharya)})
({(Rajesh),(Khanna)})
({(Preethi),(Agarwal)})
({(Trupthi),(Mohanthy)})
({(Archana),(Mishra)})
({(Komal),(Nayak)})
({(Bharathi),(Nambiayar)})
其他分隔符
以同样的⽅式,TOKENIZE ()函数接受空格[] ,双引号[“] ,逗号[,] ,括号[()] ,星
号[*]作为分隔符
例
假设有⼀个名为 details.txt 的⽂件,其中包含学⽣的详细信息,如id ,name ,age和
cit 在名称列下,此⽂件包含由各种分隔符分隔的学⽣的名字和姓⽒,如下所⽰
details.txt
1,siddarthBattacharya,22,Kolkata
2,Rajesh*Khanna,22,Delhi
3,(Preethi)(Agarwal),21,Pune
使⽤关系 details 将此⽂件加载到Pig 中,如下所⽰
grunt details = LOAD hdfs://localhost:9 /pig_data/details.txt
as (id:int, name:chararray, age:int, city :chararray);
现在,尝试使⽤TOKENIZE()分隔学⽣的名字和姓⽒如下
grunt tokenize_data = foreach details Generate TOKENIZE(name);
在使⽤dump运算符验证 tokenize_data 关系时,将获得以下结果
grunt Dump tokenize_data;
({(siddarth),(Battacharya)})
({(Rajesh),(Khanna)})
({(Preethi),(Agar
您可能关注的文档
最近下载
- 《神经网络基础之》课件.ppt VIP
- 第3课 学习有方法 第1课时 (教学课件)2025统编版道德与法治三年级上册.ppt
- (5)显卡 836348006V323(msi GTX980TI MS-V323 图纸和点位图).pdf VIP
- 汉语语法教学-越来越……/越……越…….ppt VIP
- RJ八上Unit 6 Lesson 4 2025-2026学年人教版英语八年级上册.pptx
- RJ八上Unit 6 Lesson 3 2025-2026学年人教版英语八年级上册.pptx
- RJ八上Unit 6 Lesson 1 2025-2026学年人教版英语八年级上册.pptx
- RJ八上Unit 6 Lesson 2 2025-2026学年人教版英语八年级上册.pptx
- 2023款比亚迪宋PLUS DM-i 冠军版_汽车使用手册用户操作图示图解详解驾驶指南车主车辆说明书电子版.pdf
- 蓝牌随车吊的型号及报价.docx VIP
文档评论(0)