httrack模拟搜索引擎爬虫.pdfVIP

下载本文档

24
0
约3.32千字
约 5页
2022-07-04 发布于福建
举报

httrack模拟搜索引擎爬虫.pdf

这纯粹是一条个人喜好，我经常拿 HTTrack 模拟搜索引擎爬虫用。 HTTrack 是一个网站镜像工具，本来是用来抓取网站做离线浏览用的。但是我发现它的爬虫特性和搜索引擎爬虫非常的像，逐渐应用到了自己的 SEO工作中。其实这两种看似不同的爬虫做的都是同样的工作，就是复制网站并存储下来（搜索引擎的网页快照就是被存储下来的内容）。以下是这个软件的界面： HTTrack 界面软件的官方网站是： / 软件安装后可以换成中文界面。一般用它来检测网站的坏链接和测试搜索引擎对这个网站可能面临的抓取问题。另外用它也可以探知一些 SEO做法的由来。软件的使用方法非常简单，在 “Web地址”里填上 URL就可以了。然后点 “选项”，先看“扫描规则” 扫描规则这样的扫描规则搜索引擎也一定会有的，比如不收录 .exe 文件 ,zip 文件等等。然后不收录一些特定的跟踪链接，如。你需要把一些搜索引擎爬虫不收录的特征加进去。然后在“搜寻”里面，很多的特征都是现在搜索引擎爬虫的特征：搜寻搜索引擎不会接受 cookie, 所以取消“接收 cookie ”。至于“解析 java 文件”， google 爬虫也会去解析 java 文件的。这是一个像 HTTrack 这样的通用爬虫都可以做到的事情。可能很多人还不知道， google 会去试图解析 javascript 代码。如果你的页面上放很多 javascript 代码，就会使爬虫的停留时间增加，进而影响爬虫效率。这也可以算是为什么要把 javascript 代码外调的另一个原因。还有，有些 javascript 代码里面的 URL，google 爬虫是可以收录的，原因不明。这样做可能是因为有些内容很好的网站，很多链接就是喜欢用 javascript 来做的缘故吧。但是不代表你的链接可以用 javascript 来做。 HTTrack 也同样能识别并遵守 robots.txt 文件。至于 url hacks ，就是让那种带 www和不带 www的网址，如 www.***.com 和 ***.com 。以及有斜杠和无斜杠的网址，如 http://www.***.com 和 www.***.com 能统一。这种网站上 URL不统一的状况爬虫程序其实能很简单的处理好。至于 google 为什么要网站所有者在 webmaster tool 后台指定一下“首选域”，是因为有些网站 www.***.com 和***.com 指向不同的内容。所以 google 不能那么武断的就认为 www.***.com 和***.com 是同一个网站。至于“流量控制”和“限制”，流量控制限制里面可以设置“连接数”和“深度”什么的。我相信 google 也有这些设置，不然，google 的《网站质量指南》里不会这么写 “如果站点地图上的链接超过 100 个，则需要将站点地图拆分为多个网页。” 至于深度，有报告说， google 抓取的最大深度是 12。超时时间可以设为 10 秒。还有其他“浏览器标识”和“预存区”也和搜索引擎爬虫一样的。其他设置下面用它来抓取一个网站，看看会有什么样的情况。首先爬虫会去网站根目录下访问 robots.txt 文件，如果碰到该网站的二级域名，还会去二级域名

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

httrack模拟搜索引擎爬虫.pdfVIP