httrack模拟搜索引擎爬虫.pdfVIP

  • 24
  • 0
  • 约3.32千字
  • 约 5页
  • 2022-07-04 发布于福建
  • 举报
这纯粹是一条个人喜好,我经常拿 HTTrack 模拟搜索引擎爬虫用。 HTTrack 是一个网站镜像工具,本来是用来抓取网站做离线浏览用的。但是我发 现它的爬虫特性和搜索引擎爬虫非常的像, 逐渐应用到了自己的 SEO工作中。其 实这两种看似不同的爬虫做的都是同样的工作, 就是复制网站并存储下来 (搜索 引擎的网页快照就是被存储下来的内容)。以下是这个软件的界面: HTTrack 界面 软件的官方网站是: / 软件安装后可以换成中文界面。 一般用它来检测网站的坏链接和测试搜索引擎对这个网站可能面临的抓取问题。 另外用它也可以探知一些 SEO做法的由来。 软件的使用方法非常简单, 在 “Web地址”里填上 URL就可以了。 然后点 “选项”, 先看“扫描规则” 扫描规则 这样的扫描规则搜索引擎也一定会有的,比如不收录 .exe 文件 ,zip 文件等等。 然后不收录一些特定的跟踪链接, 如 。你需要把一些搜 索引擎爬虫不收录的特征加进去。 然后在“搜寻”里面,很多的特征都是现在搜索引擎爬虫的特征: 搜寻 搜索引擎不会接受 cookie, 所以取消“接收 cookie ”。 至于“解析 java 文件”, google 爬虫也会去解析 java 文件的。这是一个像 HTTrack 这样的通用爬虫都可以做到的事情。 可能很多人还不知道, google 会去 试图解析 javascript 代码。如果你的页面上放很多 javascript 代码,就会使爬 虫的停留时间增加,进而影响爬虫效率。这也可以算是为什么要把 javascript 代码外调的另一个原因。 还有,有些 javascript 代码里面的 URL,google 爬虫是可以收录的, 原因不明。 这样做可能是因为有些内容很好的网站,很多链接就是喜欢用 javascript 来做 的缘故吧。但是不代表你的链接可以用 javascript 来做。 HTTrack 也同样能识别并遵守 robots.txt 文件。 至于 url hacks ,就是让那种带 www和不带 www的网址,如 www.***.com 和 ***.com 。以及有斜杠和无斜杠的网址,如 http://www.***.com 和 www.***.com 能统一。 这种网站上 URL不统一的状况爬虫程序其实能很简单的处理好。至于 google 为 什么要网站所有者在 webmaster tool 后台指定一下“首选域”,是因为有些网 站 www.***.com 和***.com 指向不同的内容。 所以 google 不能那么武断的就认 为 www.***.com 和***.com 是同一个网站。 至于“流量控制”和“限制”, 流量控制 限制 里面可以设置“连接数”和“深度”什么的。我相信 google 也有这些设置,不 然,google 的 《网站质量指南》里不会这么写 “如果站点地图上的链接超过 100 个,则需要将站点地图拆分为多个网页。” 至于深度,有报告说, google 抓取的最大深度是 12。超时时间可以设为 10 秒。 还有其他“浏览器标识”和“预存区”也和搜索引擎爬虫一样的。 其他设置 下面用它来抓取一个网站,看看会有什么样的情况。 首先爬虫会去网站根目录下访问 robots.txt 文件,如果碰到该网站的二级域 名,还会去二级域名

文档评论(0)

1亿VIP精品文档

相关文档