- 148
- 0
- 约小于1千字
- 约 5页
- 2018-04-14 发布于广东
- 举报
火车头采集器,教程,学习资料,技术资料,参考文件。
查看此教程建议视图:
因为包含很多图片,其他视图导致图片查看不全。
我们一般都是在第一步采集网址第二步建立标签采集内容其实在第一步采集网址的时候也是可以建立标签采集内容的,也就是采集列表页的内容。
这个功能的使用重点就是找的规律和格式!!!!
我们来采集/newsgn/zhxw/shizhengxinwen.htm这个列表下的新闻标题和时间为例。
我们先看下这部分的源代码:
上图我们看的每个新闻地址的格式都是:
li·a target=_blank href=/a014218.htm专家称国产疫苗安全有保障 接种比不接种风险小/a span class=pub_time07月01日#160;15:40/span
/li
那么按照这个格式就会把符合这个格式的地址全部采集到了。
这个就是上面我们说的规律格和格式,我们把这个格式填写到采集器里面如下图:
在第一步:采集网址规则,添加多级网址采集规则,选择“手动填写链接地址规则”,在右侧脚本规则框里面填写我们上面找的规律,
然后我们把要采集的网址和内容用采集器的标签和参数表示如下:
地址就用[参数]表示,在要采集的内容就建立[标签:XXX]
实际链接地址,组合方式可可以只是参数还可以用标签还可以自己写,就看自己需要了。
原创力文档

文档评论(0)