新站长的困扰---“伪装”的百度蜘蛛!!.doc

下载文档

6
0
约1.44千字
约 2页
2017-05-22 发布于河南
举报
版权申诉
保障服务

新站长的困扰---“伪装”的百度蜘蛛!!.doc

1、本文档共2页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

新站长的困扰---“伪装”的百度蜘蛛!!

新站长的困扰---“伪装”的百度蜘蛛！！在经常分析网站日志文件的时候，总会发现百度蜘蛛IP中出现3福建省福州市电信IP ，6广东省茂名市电信IP。而百度蜘蛛IP是位于北京的联通IP。在网站日志中分析该IP的抓取行为时候发现，该IP只抓取网页首页，经查询，该IP为站长工具的一个友情链接检测程序，该程序默认模拟百度蜘蛛程序抓取页面。百度蜘蛛IP（根据网站日志文件统计） 123.125.71.* Baiduspider/2.0（百度网页爬虫），也包括 Baiduspider-image（百度图片爬虫） 61.135.186.* Baiduspider-cpro（百度联盟爬虫）伪装百度IP对我们站长的影响分析网站日志文件是必不可少的工作，因为网站日志中记录着详细的数据，这些数据包括搜索引擎爬虫数据、服务器运行、用户浏览行为数据等等，对这些数据的分析，可以比较全面的掌握网站的情况。对与SEO工作，针对性分析搜索引擎的爬虫数据，有助于了解这些蜘蛛的爬行习惯，进一步改进网站。面对互联网数以亿计的网页数据，搜索引擎为了增加提高自身爬虫的工作效率果，往往会使用多个IP或同一IP下的多个蜘蛛程序进行抓取工作，但如果这些IP段或者蜘蛛程序存在伪装，必然会影响SEO人员对搜索引擎蜘蛛程序行为分析的判断结果，从而可能会影响SEO的决策。 1. 这是百度蜘蛛在读取robots.txt文件 1 - - [30/Jul/2012:11:55:46 +0800] GET /robots.txt HTTP/1.1 200 475 - Mozilla/5.0 (Windows NT 5.1; rv:6.0.2) GeckoFirefox/6.0.2 2. 这是百度蜘蛛抓取的tag标签 9 - - [30/Jul/2012:13:04:39 +0800] GET /archives/tag/%E9%A4%90%E5%8E%85%E4%B8%BB%E7%81%AF%E7%9A%84%E9%80%89%E6%8B%A9 HTTP/1.1 200 6345 - Mozilla/5.0 (compatible; Baiduspider/2.0; +/search/spider.html) 3. 这个是百度蜘蛛抓取的文章页 9 - - [30/Jul/2012:22:50:41 +0800] GET /archives/599.html HTTP/1.1 200 14652 - Mozilla/5.0 (compatible; Baiduspider/2.0; +/search/spider.html) 4. 这个是伪装的百度蜘蛛显示抓取的是我们的首页 6 - - [31/Jul/2012:00:00:59 +0800] GET / HTTP/1.1 200 10686 - Mozilla/5.0 (compatible; Baiduspider/2.0; +/search/spider.html) 我们看到第4个就是伪装的百度蜘蛛。由于抓取数量比较多，所以造成的影响也会比较严重，很多站长在网络上询问：为什么百度蜘蛛总是抓取我的网站首页？为什么百度蜘蛛总是抓取而不收录我的网站？类似以上的问题在网络上很多，这些对于结果，对SEO人员的判断和工作都会造成很大的影响。本文数据来自网站欢迎转载！