- 1、本文档共108页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Hadoop 案例(一)之日志清洗
日志清洗案例
一. 简单解析版
1)需求
去除日志中字段长度小于等于11 的日志。
2)输入数据
1 - - [18/Sep/2013:06:49:18 + 0] "GET /wp-
content/uploads/2013/07/rstudio-git3.png HTTP/1.1" 304 0 "-"
"Mozilla/4.0 ( patible;)"
28 - - [18/Sep/2013:06:49:23 + 0] "-" 4 "-" "-"
2 - - [18/Sep/2013:06:49:33 + 0] "HEAD / HTTP/1.1"
20 "-" "DNSPod-Monitor/1.0"
2 - - [18/Sep/2013:06:49:36 + 0] "HEAD / HTTP/1.1"
20 "-" "DNSPod-Monitor/1.0"
37 - - [18/Sep/2013:06:49:42 + 0] "HEAD / HTTP/1.1"
20 "-" "DNSPod-Monitor/1.0"
37 - - [18/Sep/2013:06:49:45 + 0] "HEAD / HTTP/1.1"
20 "-" "DNSPod-Monitor/1.0"
56 - - [18/Sep/2013:06:49:48 + 0] "GET /wp-
content/uploads/2013/07/rcassandra.png HTTP/1.0" 185524
" " "Mozilla/5.0 (Windows
NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/29.0.1547.66
Safari/537.36"
90 - - [18/Sep/2013:06:49:57 + 0] "GET /images/my.jpg
HTTP/1.1" 19939 " " "Mozilla/5.0
(Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko)
Chrome/29.0.1547.66 Safari/537.36"
90 - - [18/Sep/2013:06:50:08 + 0] "-" 4 "-" "-"
38 - - [18/Sep/2013:06:50:16 + 0] "HEAD / HTTP/1.1"
20 "-" "DNSPod-Monitor/1.0"
38 - - [18/Sep/2013:06:50:16 + 0] "HEAD / HTTP/1.1"
20 "-" "DNSPod-Monitor/1.0"
4 - - [18/Sep/2013:06:50:28 + 0] "GET /page/6/ HTTP/1.1"
27777 "-" "Mozilla/5.0 ( patible; Googlebot/2.1;
+ )"
68 - - [18/Sep/2013:06:50:37 + 0] "GET /feed/ HTTP/1.1"
304 0 "-" "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML,
like Gecko) Chrome/29.0.1547.66 Safari/537.36"
0 - - [18/Sep/2013:06:51:13 + 0] "GET /robots.txt
HTTP/1.1" 150 "-" "Mozilla/5.0 ( patible; bingbot/2.0;
+ )"
94 - - [18/Sep/2013:06:51:35 + 0] "POST /wp-
cron.php?doing_wp_cron=1379487095
文档评论(0)