- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
SEO优化教程--操作篇(2)如何进行日志分析(样板)?
如何进行日志分析(样板)?
我们SEO工作之后,就会进行日志分析。下面详细介绍一下日志分析已供大家参考。
1、网站刚上线,看搜索引擎蜘蛛的抓取情况;
2、网站收录异常,对比日志中蜘蛛的行为情况;
3、解决网站被封问题时,观察日志情况
网站日志是网站管理员和搜索引擎对话沟通的途径。通过日志,了解搜索引擎蜘蛛的访问情
况。
下载日志:
通过FTP访问网站的根。可以看到一个包含log的文件夹,这是存放日志的地方。
下载、解压、打开日志文件。
日志文件内容如:
2--[11/Jan/2009:04:02:45]GET/bbs/thread-7303-1-1.htmlHTTP/1.1200
8450-Baiduspider+(+h/search/spider.htm)(注:百度,这部分为本
文添加)
3--[11/Jan/2009:04:02:43]GET/sns/space-13563-do-friend-view-me.html
HTTP/1.12005162-Mozilla/5.0(compatible;bot/2.1;
+ht/bot.html)(注:)
1--[11/Jan/2009:04:02:44]GET/sns/space.php?uid=323HTTP/1.0200
7535-Mozilla/5.0(compatible;Yahoo!Slurp;(注:雅虎)
17--[11/Jan/2009:04:02:57]GET
/ucenter/avatar.php?uid=12373size=smalltype=virtualHTTP/1.1301--msnbot-media/1.1
(+ht/msnbot.htm)(注:MSN)
分析日志:
蜘蛛名称:百度-baiduspider、-bot、Msn-msnbot、yahoo-Slurp、yodao
-YoudaoBot、sogou-Sogou+get+spider
在日志文件里,搜索以上蜘蛛名称。就可以看到蜘蛛抓取的痕迹。
我们分析的主要点是,HTTP状态码,如以上的200和301。
2005162代表正常抓取,这次抓取了5162个字节。
不同的服务器或虚拟主机设置的日志记录内容不同。
有的如:200033834237953我们通过多看几条记录,观察规律,可以判断第三个数字代表
字节数。
有的如:20000或200064这是没有记录抓取字节数。注意:20000和200064没代表什
么问题。所谓200064代表要被K的言论没有根据,一般的网站都有64代码。
0(正常)、304(没变化)、404(错误
在日志里,发现比较多的HTTP状态码是,20链接)。
304代表,自从上次抓取后,该内容没有更新。一般情况下,网站的图片经常会返回该值。
404代表,访问的这个链接是错误链接。这个错误链接,一方面来自原本存在后来删除了网
页,另一方面可能来自本来就不存在,但其他人外链了这么个死链接。
返回开篇问题:
1、网站刚上线,看搜索引擎蜘蛛的抓取情况;
如果网站提交给搜索引擎2天后,发现日志里蜘蛛不少,并都返回200,则说明已经可以正
常收录。
只是
文档评论(0)