八爪鱼怎样通过xpath实现自定义定位元素.docxVIP

八爪鱼怎样通过xpath实现自定义定位元素.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
八爪鱼·云采集服务平台 八爪鱼·云采集服务平台八爪鱼如何通过xpath实现自定义定位元素定位元素:八爪鱼通过Xpath来实现元素的定位。适用情况:八爪鱼自动定位方式不能满足需求的情况。下面演示如何通过自定义定位元素方式来修改元素匹配的Xpath,借此修改提取元素步骤采集到的数据。示例网址:/guide/demo/genremoviespage1.html步骤一:点击自定义采集下的立即使用→输入网址并保存自定义定位元素方式-图1自定义定位元素方式-图2步骤二:点击采集位置→循环采集元素→补充并修改提取元素步骤自定义定位元素方式-图3自定义定位元素方式-图4说明:循环采集元素会采集所有信息,我们在补充并修改提取元素步骤进行了删除第一个字段操作,同时添加了我们需要的正确字段。步骤三:修改自定义定位元素方式选中要修改的字段→点击高级选项中自定义数据字段(如下图)→点击自定义定位元素方式自定义定位元素方式-图5进入自定义定位元素方式后,我们在下图红框处修改Xpath自定义定位元素方式-图6其中元素匹配的Xpath是指可以通过这个Xpath路径在网页中直接找到所需数据的路径;相对Xpath指相对于循环Xpath的路径,将循环中的Xpath接上相对Xpath路径就可以生成一条直接匹配元素的路径。下面进行演示。演示中使用了火狐浏览器的Firebug插件,详细使用情况请到Xpath使用教程中查看。自定义定位元素方式-图7自定义定位元素方式-图8自定义定位元素方式-图9自定义定位元素方式-图10如图,示例中将循环中的Xpath和字段对应的相对Xpath接在一起,在浏览器中可以查找到所有的标题。假如我们想通过Xpath的修改采集其他的字段怎么采集呢?下面演示如何通过自定义定位元素方式修改标题字段的Xpath使之采集的内容变成类型中的内容步骤1:找出类型所在的Xpath是怎样的自定义定位元素方式-图11自定义定位元素方式-图12自定义定位元素方式-图13说明:我们知道循环中的内容为每个需要采集的内容所在的位置,我们将循环中的Xpath复制进入浏览器也看到匹配到了所有电影的框。随后我们查看类型所在的Xpath,可以看到如下图:自定义定位元素方式-图14查看到的Xpath为html/body/div/div/ul/li[1]/span[2]/span/span步骤2:修改Xpath使之定位到所有的电影类型。因为我们知道LI元素定位三个电影整体的框,所以我们将循环中的//LI[@class=movie]替换到类型所在的Xpath中,形成Xpath为://LI[@class=movie]/span[2]/span/span元素前//表示不论LI在何处都匹配,所以可以省掉前面所有的元素。此时我们的得到的Xpath就可以匹配所有的电影类型自定义定位元素方式-图15可以看到该Xpath可以定位到红色箭头位置所示的3个元素,红框中也标出了类型,我们一共在该页只有三个电影,所以我们就得到了所有电影类型的Xpath。步骤3:将得到的Xpath放入自定义定位元素方式中自定义定位元素方式-图16自定义定位元素方式-图17自定义定位元素方式-图18自定义定位元素方式-图19说明:复制元素匹配Xpath后,因为我们知道循环Xpath为LI元素,所以我们复制LI元素后的部分进入相对Xpath中。通过手动运行三个电影验证标题是否改为类型,确定改变,会跟着变化,修改完成。步骤四:保存并启动→数据导出自定义定位元素方式-图20自定义定位元素方式-图21相关采集教程:京东商品信息采集58同城信息采集搜狗微信文章采集八爪鱼——70万用户选择的网页数据采集器。1、操作简单,任何人都可以用:无需技术背景,会上网就能采集。完全可视化流程,点击鼠标完成操作,2分钟即可快速入门。2、功能强大,任何网站都可以采:对于点击、登陆、翻页、识别验证码、瀑布流、Ajax脚本异步加载数据的网页,均可经过简单设置进行采集。3、云采集,关机也可以。配置好采集任务后可关机,任务可在云端执行。庞大云采集集群24*7不间断运行,不用担心IP被封,网络中断。4、功能免费+增值服务,可按需选择。免费版具备所有功能,能够满足用户的基本采集需求。同时设置了一些增值服务(如私有云),满足高端付费企业用户的需要。

文档评论(0)

wx171113 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档