火车采集器教程-标签循环采集.docVIP

  • 122
  • 0
  • 约小于1千字
  • 约 7页
  • 2018-04-04 发布于广东
  • 举报
火车头采集器,教程,学习资料,技术资料,参考文件。

查看此教程建议视图: 因为包含很多图片,其他视图导致图片查看不全。 我们要采集一个页面上面同样格式的多条数据的时候,我们这样针对一条信息设置好规则,勾选下标签循环匹配,就可以把满足这个规则的所有数据采集到如下图: 比如采集这个网站:/wat/controllerServlet.do?queryid=0002001method=doqueryquerysid=g0002showpage=1 我们查看页面源代码,我把源代码复制到txt里面做了些简单的处理,让大家看的更明白如下图: 上图看到船名都是“trtd ”开始“/td”结束,我们建立一个规则分别是以“trtd ”开始和以“/td”结束。 规则设置如下图: 采集结果如下: 左侧标签循环处理那里选了“添加为新记录”,右侧看到了船名都已经采集到了,并且每个船名都是一条独立的信息, 看到上图左侧有个选项“循环不足的记录以第一条记录补全”勾选上这个,如果在循环过程中有的信息没有采集到,就会用 第一条采集到的信息来代替。 加入左侧标签循环处理那里选了“用分隔符链接在上条的记录后”  然后在下面的“分隔符”哪一项设置分隔符,如下图: 测试结果如下: 循环采集到的结果都用我们自己设置的分隔符来隔开做为一条记录。 我们通过页面源代码,知道这个是个表格,那么我们就多说写表格如何采集。如果我们还有继续采集更多信息如下图的“英文船名”,“航次”等等。

文档评论(0)

1亿VIP精品文档

相关文档