- 1、本文档共14页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
精品文档
精品文档
PAGE
PAGE12
精品文档
PAGE
精品文档 你我共享
八爪鱼采集过程中常出现的问题以及解决方法
本教程主要讲的是如果你在使用八爪鱼采集时碰到一些问题, 怎样迅速找出
错误、解决错误或许怎样认识错误、更好的和客服交流的方法。
八爪鱼采集器主要经过技术将用户浏览网页的操作进行定位和模拟来收集
数据,用户不需要理解网页架构、 数据采集原理等技术,经过八爪鱼采集器便可
以组成八爪鱼能够看懂的、能够循环工作的采集流程。
如果存在采集模式不知足需求的情况,排错后边有更为详尽的教程。
采集过程中出现的错误能够归类为五个方面,分别是网页问题、规则问题、
定位模拟问题、采集器问题、以及云端问题。当采集出现异样时,请先按照如下
流程进行错误排查,寻找问题种类:
1、手动履行一遍规则:翻开界面右上角的流程图, 用鼠
标点击流程图内规则,从上至下,每次点击下一步都有相应反响, 没有发生反响
的步骤则是问题出现步骤。
注意点:
1)循环内的点击以及提取元素要手动选择循环中除第一个以外的内容,防
止循环无效,只点击提取循环内第一个元素
2)所有规则每一步履行完才履行下一步,网页未加载完全,即浏览器上圆
圈等待图标未消失时,察看网页内容是否加载完全,如果加载完全能够自行取消
AAAAAA
精品文档 你我共享
加载,再配置规则。
2、进行单机采集,查察采集结果中未采集到数据的项目。
注意点:规则中最好加入目前网址,这样出现未采集到数据的项目,能够复
制网址在浏览器中翻开查察原因,确定错误。
下面分别将可能出现问题的现象表达如下,供你参照:
1、手动履行步骤无反响
可能现象有两种:
1)未正常履行步骤
原因:规则问题、采集器问题、定位模拟问题
解决方法:
可进行排查,删除该步骤,从头增添一遍,如果仍是无法履行,则清除了规
则问题,你能够:
将该网页在浏览器翻开进行操作, 如果一些转动翻页或点击翻页在浏览器可
以履行而采集器中不能履行,则是采集器问题,原因是采集器内镶浏览器为火狐
浏览器,可能是内镶的浏览器版本在随后的版本发生了变化, 致使在浏览器能够
实现的功能,在采集器内镶浏览器中无法履行, 该类网页中的数据,智能采集翻
页或转动之前的数据。
清除了采集器问题及规则问题后, 你能够尝试在与制作规则时同样布局的页
面上进行从头增添步骤,如果在这样的页面能够履行而只在部分页面无法履行,
则是定位模拟问题,该问题往往存在于时间跨度较大的网站, 原因是网站布局发
AAAAAA
精品文档 你我共享
生变化,致使采集器定位所需的 XPath发生变化,请参照 XPath章节改正规则
或咨询客服,建议向客服说明网站网址和错误原因,方便客服给出解决方案。
八爪鱼采集器排错-图1
2)循环内的点击或采集只发生于第一条内容,点击第二条内容依旧采集到
第一条内容时
原因:规则问题,定位模拟问题
解决方法:
查察循环中间的第一项为哪一项否勾选点击目前循环中设置的元素这一项
如果勾选了依旧不能够,你能够:
如果循环内有其他循环,先参照上问题 1的动图将里面的内容移出去,删除
有问题的循环,从头设置一次,如果移出去的规则没有自动复位需要手动复位,
如果循环能够使用则清除规则问题,如果不能够,则是定位模拟问题,你能够:
AAAAAA
精品文档 你我共享
查察循环中提取数据的自定义数据字段,查察自定义定位元素方式,看里面
是否存在相对 Xpath 路径,如果不存在,则删除字段,勾选外层高级选项中的
使用循环,并从头增添,再次尝试如果有反响,则问题得到解决,如果依旧不行,
你能够:
参照Xpath章节对网页Xpath 进行改正或咨询客服,建议向客服说明网站
网址和错误原因,方便客服给出解决方案。
八爪鱼采集器排错-图2
2、单机采集采不到数据
可能原因有4种:
1)单机运行规则,数据还没采完便显示采集达成
此种现象分为3种情况
①翻开网页后直接显示采集达成
原因:网页问题,第一个网页加载过慢,八爪鱼会等待一段时间,高出一定
时间还在加载八爪鱼就会跳过了这个步骤, 后续步骤以为内容未加载出来采不到
数据,八爪鱼就结束了任务,造成采集不到数据。
AAAAAA
精品文档 你我共享
解决方法:将网页的超时时间加长,或许在下一个步骤设置履行前等待,让
网页有足够长的时间加载。
八爪鱼采集器排错-图3
八爪鱼采集器排错-图4
②网页一直处于加载状态
原因:网页问题,有些网页的加载会很慢。想要采集的数据没有出现。
AAAAAA
精品文档 你我共享
解决方法:如果目前步骤是翻开网页步骤,能够将网页的超时时间加长。如
果是点击元素步骤,而且要采集的数据已经加载出来的时候, 能够在点击元素步
骤设置ajax延时,点击了之后有新数据加载出来而网页网址没有变化的为 ajax
链接,
八爪
文档评论(0)