火车采集器教程-列表页分页采集获取功能.docVIP

下载本文档

54
0
约1.12千字
约 5页
2018-04-14 发布于广东
举报

火车采集器教程-列表页分页采集获取功能.doc

火车头采集器，教程，学习资料，技术资料，参考文件。

查看此教程建议视图：因为包含很多图片，其他视图导致图片查看不全。对于设置列表分页，下图设置是最常见也是最常用的。现在教大家另外一个获取分页的办法，就是通过列表页分页采集获取功能来自动获取分页。使用这个功能，起始页就只需要把首页地址添加进去就可以了如下图：分页设置是在 “多级网址获取”里的“列表分页获取”如下图：上图“从该区域中提取列表分页网址”　那里就是找到源代码里面分页开始的地方和结束的地方，中间包含的地址就分页地址。对于那种分页全部列出来的，设置好这一步就可以了，但是很多情况下分页都不是完全列出来的，中间会有省略号代替如下图：现在针对全部列出，和不是全部列出这２种情况，做一个都适用的设置，我一直都是用这种方式获取，几乎解决所有的网站。我们重要的是要找到当前页源代码的特点。我是用/newsgn/zhxw/shizhengxinwen.htm　这个列表页来做说明的。我们看下第一页分页源代码的情况如下图：再看下第二页源代码的情况如下图：然后我们不再一页一页看随便看一页，查看源代码我这里选第五页如下图：通过红色标注，大家看到规律了没有？当前页都是strong/strong这个代码后面紧接着一个a 就是下一页地址。也就是说我们是要通过当前页获取下一页，这样一级一级的向下获取，直至把所有分页获取到。那么放到采集器里面的表示就是从div class=pageN

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

火车采集器教程-列表页分页采集获取功能.docVIP