- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一次偶然的机会,听了龙哥的录音,发现讲的非常棒,而这些又是免费的录音, 后知估计下载的人不会太多,所以这就是“免费的就是最贵的”,很多人可能觉 得免费培训录音就跟其他泛泛的培训似的。其实错了,这个让我把龙哥讲课的 录音都下载了,这段时间在学习,今天就和大家分享下日志分析。记住,数据分 析的目的是 进行调整策略和进一步提高,而不是为了分析而分析!
在分析日志的时候需要用到的工具:光年日志分析工具、web log explorer MSSQL还有一点,做好数据的分析 excel是必备的,最近在看阿莫推荐的一本 书,写的挺好的《你早该这么玩 excel》,推荐大家看看,基础的应用还是要会 的。
我们应该从哪几个维度来进行数据的整理分析呢?我们从基础信息、 目录抓
取、时间段抓取、IP抓取、状态码几点分布给大家讲解。
第一、基础信息
我们从日志中能够获取哪里基础信息呢?总抓取量、 停留时间(h)及访问次数 这三个基础信息,可以从光年日志分析工具中统计出来。 然后,通过这三个基础 信 息算出:平均每次抓取页数、单页抓取停留时间。然后用我们的MSSQ提取蜘 蛛唯一抓取量,根据以上的数据算出爬虫重复抓取率。
平均每次抓取页数=总抓取量/访问次数 单页抓取停留时间=停留时间
3600/总抓取量 爬虫重复抓取率=100%^唯一抓取量/总抓取量
而以上这些数据,我们需要统计出一段时间的数据,看这个时间的整体趋势 是怎么样的,这样才能够发现问题,才能够调整网站的整体策略。下面就以一站 点上个月的日志基础信息为例。
日期
02
03
04
OS
:■:
■L
Io F
.i!-
16
17 IS
P19
2D
21
/:■
F.:s
24
平均超按抵毗贡數 单更撮程停SSHISHJ
2E21
274+
2478
2E n3
1746
1534呂乐
IhLB
1S1L
1604 1918 13 ^8
137L
1250
16 34
IE 34
1557
1647
1993
PBB
1372
1336
IS 46 ies
2斗氐
1^6- 334 15_ 137
3 乩C02
2.S7
81-10? ML删 99.231 1ZL51 丁乩 G7t
T4.12
5S. 74iCIL 4CF107. 2( 4109- 425
14. 7M
121B273
S5. ^21
31.40?
TO. 596
65. 35
1431
L371
1405I宀973-35
S彌B痂9(28叮圳
315
593
7310那9410飢10呵昭748?31
2. C014E87K
385, JOBSDE9
1」砖珂丸52
3Q4,1318417
7, (14C al 3O2T
241/EH 1A 96 B
1. T9J453154
iSKailSTEl
1. G40£41711
141. M3.-225
IL. 7f
L ?4444444
12S.SS9C76
L61I9246M
148,9918911
1.72844B276
163JIW60?
Lsrzisssn
IBS. 3Q44T5
K6308T73
121,3733219
L,-
11A. 8DQC95
1* 7IE323767
陀.540UT5
Lu 599703135
161.732C13B
1.736 0024T4
22.3,1771971
1253.-505^003
LfiM 酒 sSb
iia 304918
E 0604024
278.M524B6
仁 T7Tl^28
2H~ 4E12B7B
i.EoaoBise
22 49£88
1.601 91 衬 6S
219.:3441)12
1-814 016173
138.81^32
1.815366972
148.616S5O?
1, 649 509804
141,0124BL4
L? 93 238006
163.3751
1 H黑帀乔苦
肪耳用722C ■■
15B6
2T.fc 62%
1777
28,29S
1435
4S.
10DS
42- 27S
572
Sft. G4虬
910
19S3
?.■.飞*
1Z2?
3S. OT*
678
4 因 70S
T6T
仏Q6S
69i
仏43%
1040
日氐35S
9fil
心93S
ma
28. US
1121
列94%
1112
IK2€%
105E
40.9SK
76
2fL殛
8S2
35.懈
850
984
TB3
6£2
aoo eoli^k
1C 02 肌+刚
K6 42,济
这个基础表是上个月的日志的基本信息,我们需要看它的整体趋势来调整, 哪些地方需要加强。
-^-.池抓
-一抓取量
从这个整体走势来看出,爬虫的抓取总量整体是
原创力文档


文档评论(0)