网站日志分析方法.docxVIP

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
网站日志分析方法

数据分析的目的是进行调整策略和进一步提高,而不是为了分析而分析!在分析日志的时候需要用到的工具:光年日志分析工具、web log explorer、MSSQL。我们应该从哪几个维度来进行数据的整理分析呢?我们从基础信息、目录抓取、时间段抓取、IP抓取、状态码几点分布给大家讲解。第一、基础信息我们从日志中能够获取哪里基础信息呢?总抓取量、停留时间(h)及访问次数这三个基础信息,可以从光年日志分析工具中统计出来。然后,通过这三个基础信息算出:平均每次抓取页数、单页抓取停留时间。然后用我们的MSSQL提取蜘蛛唯一抓取量,根据以上的数据算出爬虫重复抓取率。平均每次抓取页数=总抓取量/访问次数 ??? 单页抓取停留时间=停留时间*3600/总抓取量 ??? 爬虫重复抓取率=100%—唯一抓取量/总抓取量 而以上这些数据,我们需要统计出一段时间的数据,看这个时间的整体趋势是怎么样的,这样才能够发现问题,才能够调整网站的整体策略。下面就以一站点上个月的日志基础信息为例。 这个基础表是上个月的日志的基本信息,我们需要看它的整体趋势来调整,哪些地方需要加强。 从这个整体走势来看出,爬虫的抓取总量整体是在下降的,这个就需要我们进行一些相应的调整。 整体来看,网站重复抓取率是有点上升的,这个就需要一些细节,多一些为抓取的入口和使用一些robots及nofollow技巧。 爬虫单页的停留的时间,国平老师曾经写过那篇网页加载速度是怎么影响seo流量的文章,大家应该看过吧。提高网页加载速度,减少爬虫单页停留时间,可以为爬虫的总抓取做出贡献,进而增加网站收录,从而提高网站整体流量。在16号至20号左右服务器出现一些问题,之后进行调整后,速度明显变快,单页停留时间也相应的下来了。 而对此进行相应调整如下: 从本月整理来看,爬虫的抓取量是下降的,重复抓取率是上升的。综合分析,需要从站内链接和站外的链接进行调整。站内的链接尽量的带锚文本,如果不能带的话,可以推荐其他页面的超链接,让蜘蛛尽可能的深层次的抓取。站外链接的话,需要多方面的发布。目前平台太少了,如果深圳新闻网、商国互联等站点出现一丝差错的话,我们站点将受到严重影响。站外平台要广,发布的链接要多样话,不能直发首页的,栏目及文章页面需要加大力度。目前,来讲站外平台太少,将近10w的外部链接,集中在几个平台上。 第二、目录抓取用MSSQL提取出爬虫抓取的目录,分析每日目录抓取量。可以很清晰的看到每个目录的抓取情况,另外可以对比之前的优化策略,优化是否合理,重点的栏目优化是不是预期的效果。如图, 绿色:主做栏目 ??黄色:抓取较差 ??粉色:抓取很差 ?深蓝色:需要禁止栏目 可以看到整体的趋势并没有太大变化,只有两个栏目的抓取是有较大变动的。 通过上面两个图,进行相应调整如下: 通过图表中科院产出,整体抓取较少。主做栏目中,抓取较少的为:xxx、xxx、xxx。对于总体来说,需要加大整个网站的导入口,需要外链配合,站内需要加强内部链接的构建。对于,爬取较弱栏目进行加强处理。同时,深蓝色的栏目写入robots中,将其屏蔽,并将网站中导入到这些栏目是URL进行nofollow避免权重只进不出。 第三、时间段抓取?通过excel中的数组函数,提取每日的时间段的爬虫抓取量,重在分析每日的抓取情况,找到相应的抓取量较为密集的时间段,可以针对性的进行更新内容。同时,还可以看出,抓取不正常情况。 图中一些表粉色的,是抓取不正常的时间点,可以看出服务器并不是特别的稳定。而且,如果想知道特殊情况的话,可以从下图中一眼看出,某日哪个时间点出问题了,而且同样是总抓取是下降的趋势。 通过时间段抓取,我们进行相应的调整: 通过图中的表色,可以看出服务器并不是特别的稳定,我们需要加强服务器的稳定性。另外,17、18、19三天,连续被人攻击、挂链等,但是爬虫抓取正常,这说明这些对网站已经造成了一定影响! 第四,IP段的抓取通过MSSQL提取日志中的爬虫的IP,通过excel进行统计,每日每个IP的抓取量,同样我们需要看整体,如果IP段没有明显的变化的话,网站升降权是没有多大问题的。因为在网站升权或者降权的时候,爬虫的IP段会更换的。第五,状态码的统计在这个之前你需要了解下,HTTP状态码返回值代表是什么。 图中,可以看出304状态码比较多。如果一个网站被搜索引擎抓取的次数以及频率越多那么他是越有利于排名的,但是如果你的网站出现太多的304,那么一定会降低搜索引擎的抓取频率以及次数,从而让自己的网站排名比别人落一步。调整:服务器可以清除下缓存。? 还有最后一张图,百度爬虫的数据图,密密麻麻的数据,以上所有的数据都是从这里调用出来的。?

文档评论(0)

yaobanwd + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档