- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Hadoop 案例(一)之日志清洗
日志清洗案例
一. 简单解析版
1)需求
去除日志中字段长度小于等于11 的日志。
2)输入数据
1 - - [18/Sep/2013:06:49:18 + 0] GET /wp-
content/uploads/2013/07/rstudio-git3.png HTTP/1.1 304 0 -
Mozilla/4.0 ( patible;)
28 - - [18/Sep/2013:06:49:23 + 0] - 4 - -
2 - - [18/Sep/2013:06:49:33 + 0] HEAD / HTTP/1.1
20 - DNSPod-Monitor/1.0
2 - - [18/Sep/2013:06:49:36 + 0] HEAD / HTTP/1.1
20 - DNSPod-Monitor/1.0
37 - - [18/Sep/2013:06:49:42 + 0] HEAD / HTTP/1.1
20 - DNSPod-Monitor/1.0
37 - - [18/Sep/2013:06:49:45 + 0] HEAD / HTTP/1.1
20 - DNSPod-Monitor/1.0
56 - - [18/Sep/2013:06:49:48 + 0] GET /wp-
content/uploads/2013/07/rcassandra.png HTTP/1.0 185524
Mozilla/5.0 (Windows
NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/29.0.1547.66
Safari/537.36
90 - - [18/Sep/2013:06:49:57 + 0] GET /images/my.jpg
HTTP/1.1 19939 Mozilla/5.0
(Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko)
Chrome/29.0.1547.66 Safari/537.36
90 - - [18/Sep/2013:06:50:08 + 0] - 4 - -
38 - - [18/Sep/2013:06:50:16 + 0] HEAD / HTTP/1.1
20 - DNSPod-Monitor/1.0
38 - - [18/Sep/2013:06:50:16 + 0] HEAD / HTTP/1.1
20 - DNSPod-Monitor/1.0
4 - - [18/Sep/2013:06:50:28 + 0] GET /page/6/ HTTP/1.1
27777 - Mozilla/5.0 ( patible; Googlebot/2.1;
+ )
68 - - [18/Sep/2013:06:50:37 + 0] GET /feed/ HTTP/1.1
304 0 - Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML,
like Gecko) Chrome/29.0.1547.66 Safari/537.36
0 - - [18/Sep/2013:06:51:13 + 0] GET /robots.txt
HTTP/1.1 150 - Mozilla/5.0 ( patible; bingbot/2.0;
+ )
94 - - [18/Sep/2013:06:51:35 + 0] POST /wp-
cron.php?doing_wp_cron=1379487095. 1250 HTTP/1.0
0 - WordPress/3.6;
原创力文档


文档评论(0)