最全的八爪鱼循环提取网站网页数据方法.docxVIP

最全的八爪鱼循环提取网站网页数据方法.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
八爪鱼·云采集网络爬虫软件 八爪鱼·云采集网络爬虫软件 最全的八爪鱼循环提取网页数据方法 在八爪鱼中,创建循环列表有两种方式,适用于列表信息采集、列表及详情页采集,是由八爪鱼自动创建的。当手动创建的循环不能满足需求的时候,则需要我们手动创建或者修改循环,以满足更多的数据采集需求。 循环的高级选项中,有5大循环方式:URL循环、文本循环、单个元素循环、固定元素列表循环和不固定元素列表循环。 URL循环 适用情况:在多个同类型的网页中,网页结构和要采集的字段相同。 示例网址: HYPERLINK /subject /subject HYPERLINK /subject/6311303/ /subject/6311303/ HYPERLINK /subject/1578714/ /subject/1578714/ HYPERLINK /subject /subject HYPERLINK /subject /subject HYPERLINK /subject /subject 操作演示: 具体请看此教程: HYPERLINK /tutorialdetail-1/urlxh_7.html /tutorialdetail-1/urlxh_7.html 文本循环 适用情况:在搜索框中循环输入关键词,采集关键词搜索结果的信息。 实现方式:通过文本循环方式,实现循环输入关键词,采集关键词搜索结果。 示例网址:/ 操作演示: 具体请看此教程: HYPERLINK /tutorialdetail-1/wbxh_7.html /tutorialdetail-1/wbxh_7.html 注意事项:有的网页,点击搜索按钮后,页面会发生变化,只能采集到第一个关键词的数据,则打开网页步骤需放在文本循环内。 例: HYPERLINK / / 如图,如果将打开网页步骤,放在循环外,则只能提取到第一个关键词的搜索结果文本,不能提取到第二个关键词的搜索结果文本,文本循环流程不能正常执行。 经过调整,将打开网页步骤,放到循环内,则可以提取到两个关键词的搜索结果文本,文本循环流程可正常执行。 具体情况此教程:: HYPERLINK /tutorialdetail-1/urlxh_7.html /tutorialdetail-1/urlxh_7.html 三、单个元素循环 适用情况:需循环点击页面内的某个按钮。例如:循环点击下一页按钮进行翻页。 实现方式:通过单个元素循环方式,达到循环点击下一页按钮进行翻页目的。 定位方式:使用xpath定位,始终定位到下一页按钮。 示例网址: HYPERLINK /guide/demo/genremoviespage1.html /guide/demo/genremoviespage1.html 操作示例: 具体请看此教程: HYPERLINK /tutorialdetail-1/fylb-70.html /tutorialdetail-1/fylb-70.html 四、固定元素列表循环 适用情况:网页上要采集的元素是固定数目的。 实现方式:通过固定因素列表循环,循环页面内的固定元素。 定位方式:使用xpath定位,一条xpath对应循环列表中的一个元素。 示例网址: HYPERLINK / / 操作示例: 操作说明:示例中,我们通过“选中页面内第一个链接”,选择“选中全部”,继续选择“循环点击每个链接”,建立了一个循环点击元素的循环,自动生成的循环方式是:固定元素列表。打开固定元素列表查看,20条循环xpath,对应循环列表中的固定20个元素(也可以看成对应浏览器页面的20条文章链接)。 这里涉及了xpath相关内容,可参考此xpath教程: xpath入门1: HYPERLINK /tutorialdetail-1/xpathrm1.html /tutorialdetail-1/xpathrm1.html 五、不固定元素列表循环 适用情况:网页上要采集的元素不是固定数目。 实现方式:通过不固定因素列表循环,循环页面内的不固定元素。 定位方式:使用xpath定位,一条xpath对应循环列表中的多个元素。 示例网址: HYPERLINK / / 操作示例: 操作说明:通过观察八爪鱼固定元素列表循环中生成的xpath: //UL[@class=news-list]/LI[1]/DIV[2]/H3[1]/A[1] //UL[@class=news-list]/LI[2]/DIV[2]/H3[1]/A[1] //UL[@class=news-list

文档评论(0)

wx171113 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档