最全网页数据采集特殊翻页解决方案.pptxVIP

最全网页数据采集特殊翻页解决方案.pptx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
八爪鱼 让数据触手可及 视频教程PPT 特殊翻页 一、采集时无下一页,数字翻页 二、采集时页面出现再显示20条等按钮 三、一二页重复循环 四、最后一页死循环 一、采集时无下一页,数字翻页 适用情况:要采集的页面上没有翻页按钮,而是一排页码 解决思路:找到一条xpath,使得在当前页始终能定位到下一页 示例网址:/news/ 二、采集时页面出现再显示20条等按钮 适用情况:要采集的网页中,有加载更多或者再显示20条等按钮,点击这些按钮之后需要 采集的数据才会完全显示出来 解决思路:按照常规操作,创建翻页循环,然后将循环翻页步骤拖到循环-提取数据步骤前 让所有翻页完成之后,再进行循环提取数据步骤,不然会很多重复数据 示例网址:/ 三、一二页重复循环 适用情况:要采集的网页,总是在一二页循环提取数据,而不会跳到到第三页 原因分析:xpath定位不准,在第二页时,能定位到“上一页”和“下一页”两个按钮 解决思路:修改xpath,使在第一、二页,只能定位到“下一页”按钮 示例网址: 三、一二页重复循环 适用情况:要采集的网页,总是在一二页循环提取数据,而不会跳到到第三页 原因分析:xpath定位不准,在第二页时,能定位到“上一页”和“下一页”两个按钮 解决思路:修改xpath,使在第一、二页,只能定位到“下一页”按钮 示例网址: 四、最后一页死循环 适用情况:要采集的网页,明明已经采完了最后一页的数据,但重复采集最后一页数据,不停止采集 原因分析:xpath定位不准,在最后一页还能定位到“下一页”按钮,循环翻页无法结束 解决思路:修改xpath,使当前页是最后一页时,定位不到“下一页”按钮 示例网址:/friendgalaxy/event/mypost/3211469?page=1 自动生成的翻页xpath://A[@class=next] 需改后的翻页xpath://A[@class=nextand contains(@href,/friendgalaxy/)] The End 谢谢大家

文档评论(0)

wx171113 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档