- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
用IIS日志分析工具之EXCEL数据透视表
互联网上分析IIS的工具倒是不少,不过我没有遇见能够符合我要求的,一般的都是只能查询IIS日志内的蜘蛛爬行的次数而已。下面说个比较简单且非常实用的方法,通过EXCEL的一些简单的公式做出想得到的一系列数据,例如时间间隔,爬行页面,返回状态码,网址参数,蜘蛛类型,蜘蛛IP等,通过以上数据可以进行对网站的问题的排查,更正。 首先必须有自己的服务器或者能够查看IIS日志的权限,通过FTP将iis日志文件从空间中下载到本地 服务器获取IIS日志的方式:打开IIS,点击要查询网站右键属性网站选项卡属性即可看到如图 如果是空间的话有些空间服务上会将日志文件放在网站根目录的。如果没有的话可以向服务商索取。
?
然后根据路径进行查找相应的文件夹然,可以看到文件夹下有很多.log文件就是日志文件,然后通过FTP下载到本地。
?
如果文件过大操作起来可能不方面,可以使用UltraEdit打开,筛查你想得到的数据(具体自己下载一个研究下)。文件不是很大可以使用记事本直接打开后复制到EXCEL。
?
然后将前4行删除,选择A列,点击excel数据分列分割符号
?
?
下一步其他输入空格下一步完成。这样第一步就完成了。
?
然后选择A1列右键插入 然后将C,D,E,I列删除。在第一行分别输入:日期,时间,网页,参数,端口,IP,蜘蛛,状态码 另外说明一下参数,参数这个是动态网页面问号(?)后面的部分。/jiaju/chufang/5309_3.html 这个路径后面的参数值为3,那么组合之后真是的URL就是/jiaju/chufang/5309_3.html?3 因此说明蜘蛛还是可以分辨参数的,有些网站投放广告后面经常都会带上参数进行统计,但经过抓取后参数都会被去除的。所以尽量不要在内容页使用此类的URL。
?
选中G列数据筛选点击G列箭头文本筛选包含
?
输入baidupider 点击确定。即可看到所有百度蜘蛛访问的数据 这样的话大致的数据已经呈现出来了,如果查看google在筛选时候输入googlebot就可以了。随后制作一个简单的数据透视表便于分析。 一次顺序:插入数据透视表数据透视表确定 在右侧按先后顺序勾选网页,蜘蛛,时间。然后点击蜘蛛后面的小三角
?
点击标签筛选包含输入baidupider。既可以筛选出最终要看的网页的spider爬行时间详细数据,当然可以按照其他组合进行筛选各类数据,就不演示了。
希望文章对您有一定的帮助,文章来源 ,转载请保留链接。
文档评论(0)