网站SEO优化之日志分析指南.pdfVIP

  • 0
  • 0
  • 约2.58千字
  • 约 2页
  • 2026-01-28 发布于北京
  • 举报

本文在你进行SEO工作会用到。

1、刚上线,看搜索引擎蜘蛛的抓取情况;

2、收录异常,对比日志中蜘蛛的行为情况;

3、解决被封问题时,观察日志情况。

日志是管理员和搜索引擎沟通的途径。通过日志,了解搜索引擎蜘蛛的情

况。

日志:

通过FTP的根目录。可以看到一个包含log的文件夹,这是存放日志的地方。

如图:

查看:

、解压、打开日志文件。

日志文件内容如:

2--[11/Jan/2009:04:02:45]GET/bbs/thread-7303-1-1.htmlHTTP/1.1200

8450-Baiduspider+(+)(注:,这部分为本

文添加)

3--[11/Jan/2009:04:02:43]GET/sns/space-13563-do-friend-view-me.html

HTTP/1.12005162-Mozilla/5.0(compatible;bot/2.1;

+)(注:)

1--[11/Jan/2009:04:02:44]GET/sns/space.php?uid=323HTTP/1.0200

7535-Mozilla/5.0(compatible;Yahoo!Slurp;

)(注:雅虎)

17--[11/Jan/2009:04:02:57]GET

/ucenter/avatar.php?uid=12373size=smalltype=virtualHTTP/1.1301--msnbot-media/1.1

(+)(注:MSN)

日志文件全文:

分析日志:

蜘蛛名称:-baiduspider、-bot、Msn-msnbot、yahoo-Slurp、yodao

-YoudaoBot、sogou-Sogou+get+spider

在日志文件里,搜索以上蜘蛛名称。就可以看到蜘蛛抓取的痕迹。

我们分析的主要点是,HTTP状态码,如以上的200和301。

2005162代表正常抓取,这次抓取了5162个字节。

不同的服务器或虚拟主机设置的日志记录内容不同。

有的如:200033834237953我们通过多看几条记录,观察规律,可以判断第三个数字代表

字节数。

有的如:20000或200064这是没有记录抓取字节数。注意:20000和200064没代表什

么问题。所谓200064代表要被K的没有根据,一般的都有64代码。

在日志里,发现比较多的HTTP状态码是,200(正常)、304(没变化)、404(错误)。

304代表,自从上次抓取后,该内容没有更新。一般情况下,的经常会返回该值。

404代表,的这个是错误。这个错误,一方面来自原本存在后来删除了网

页,另一方面可能来自本来就不存在,但其他人外链了这么个死。

返回开篇问题:

1、刚上线,看搜索引擎蜘蛛的抓取情况;

如果提交给搜索引擎2天后,发现日志里蜘蛛不少,并都返回200,则说明已经可以正

常收录。

只是展示的时间比较快,而则需要20天左右(经验平均值)展示出来。

2、收录异常,对比日志中蜘蛛的行为情况;

收录正常增加时和现在异常时的日志,进行对比分析。如果没有异常,则应该

文档评论(0)

1亿VIP精品文档

相关文档