火车采集器教程-多页采集.docVIP

  • 12
  • 0
  • 约1.22千字
  • 约 7页
  • 2018-04-04 发布于广东
  • 举报
火车头采集器,教程,学习资料,技术资料,参考文件。

查看此教程建议视图: 因为包含很多图片,其他视图导致图片查看不全。 什么是默认页什么是多页?假如我们通过采集器采集到了最终内容也地址是/,然后我们还想点击导航栏上面的“联系方式”进入到这个地址 /page/contactinfo.htm来继续采集信息。如下图: 那么本例的/在采集器里面就叫做默认页,而地址/page/contactinfo.htm ,是通过/这里各地获取的 那么这个地址 相对与地址/就叫做多页。 明白了多页和默认页的定义,下面我们来说明写如果从默认页获取到多页。 在规则的第二步:采集内容规则,点击“多页管理”按钮,如下图 打开后看到的界面如下图: 上图看到或者地址的方式有2中方式:1,依据规则对默认页地址替换生成地址;2,在默认页源代码内采集得到地址 根据规则对默认页地址替换生成地址:也就是默认页和多页地址上面有相同的地方,通过简单的替换就可以变成多页地址; 在默认页源代码内采集得到地址:也就是多页的地址在默认页的页面源代码里面。 现在就用采集阿里巴巴公司信息为例来说明下2种方式的用法: 依据规则对默认页地址替换生成地址 比较默认页“/”和多页地址:“/page/contactinfo.htm”之间的共同点,在默认页后面加上“page/contactinfo.htm”就是我们的多页了。 写到采集器里面如下图: 上图我们把需要的部分用(.*)代替,这里是用正则替代需

文档评论(0)

1亿VIP精品文档

相关文档