- 5
- 0
- 约小于1千字
- 约 4页
- 2017-06-27 发布于安徽
- 举报
八爪鱼采集器高阶教程
Ajax加载——下拉加载
相信很多朋友在采集的时候碰到过一些网页是需要不停下拉才会加载新的
数据,在设置好采集规则,进行采集时总是少采或者采不到数据。像这种类型
的网站,通常都是运用了Ajax 网页加载技术,这是网站为了防止采集进行的设
置,为了应对这一类网站Ajax 加载的网页,我们可以通过下面的操作来避免数
据少采或者采集不到的情况:
我们通过新浪微博的页面来进行演示
在下图中可以看到当我们把微博的页面下拉至底部的时候就会出现正在加载中
的字样,随着我们的下拉,页面会有新的数据加载出来。
在八爪鱼创建好新的采集任务后,我们打开微博页面,建立一个抓取微博信息
的循环列表,在图中的红色方框中我们可以看到建立的列表中只有未下拉页面
时所显示的微博
当我们进行采集的时候运行这个规则进行采集的时候采集到的只有页面中显示
的14 条信息
要解决这个情况,我们需要回到我们的规则编辑界面,点击流程编辑器中的打
开网页步骤,选择右侧的高级选项,勾选页面加载完成向下滚动,设置好滚动
方式:滚动到底部、滚动次数和每次滚动的间隔 (滚动次数和间隔需要根据不
同的网页和网络的速度进行设置)如下图所示:
这里是我根据自己的情况进行的设置,完成后点击保存,进行采集
进过设置后,这一次我们就
原创力文档

文档评论(0)