云采集规则优化加速案例1——不固定元素列表转固定元素列表.pdfVIP

云采集规则优化加速案例1——不固定元素列表转固定元素列表.pdf

  1. 1、本文档共3页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
云采集规则优化加速案例1——不固定元素列表转固定元素列表

云采集规则优化加速案例 (1)——不固定元素列表转固定元素列表 看过云采集加速原理的用户都知道 ,云采集上除了单个元素和不固定元素列表以 外其他列表都是可以拆分的 ,这样可以加快云采集的速度。大家使用云采集的规 则是不固定元素列表的时候 ,这个规则在云服务器上是无法被拆分的 ,所以不能 进行采集速度的优化 ,导致使用云采集时的速度没有提升。 这个教程将教大家如何通过将不固定元素列表转换为固定元素列表来帮助大家 优化自己的云采集规则 ,从而获得更高的采集速度。 各种循环列表的循环方式 先给大家演示一个不固定元素列表自动生成的例子 : 以 :http///tutorial?type=1 这个网站为例 ,打开这个网站点击第一个教程名称添加循环 ,再继续点击第二个 循环项添加循环。 如图 :这就是系统自动生成的固定循环列表的xpath (//HTML/BODY[1]/DIV[3]/DIV[1]/DIV[1]/DIV[2]/DIV[1]/DIV/A[1] ) 接着我们通过修改不固定元素列表的Xpath进行固定元素列表的转换。 首先 ,把这个不固定元素列表的Xpath复制到火狐浏览器里面打开 , 可以看到网页中每一行教程的信息都被提取到了 , 而我们要进行列表的拆分 ,只需要在上面的Xpath进行修改;如下 //HTML/BODY[1]/DIV[3]/DIV[1]/DIV[1]/DIV[2]/DIV[1]/DIV[1]/A[1] 可以看到在给 DIV 后面加上[1],就可以定位到了第一个教程的位置,观察第一个 Xpath可以看到只有倒数第二个 DIV 没有序号 ,意味着选中了全部的教程 ,所 以当要进行列表拆分的时候就需要通过加上[数字] ,来进行定位。以后我们碰到 其他需要拆分的列表时 ,建议复制 xpath到火狐浏览器中 ,通过修改其中未定 位的标签 ,来进行拆分的实验 ,确定修改好的Xpath。 Xpath的修改可以参考这两个教程 :Xpath1、Xpath2 其它行的位置 ,根据列表的顺序 ,修改上面的Xpath 中的数字 ,再将修改好的 Xpath复制到固定元素列表里就可以了 如下图 ,我修改了 8个 Xpath,所以列表中只出现了 8个元素的信息。 到这里我们就完成了不固定元素列表的转换 固定元素列表和不固定元素列表是可以互相修改的 ,前提是源码内容格式要一 致 ,建议大家能改成固定元素列表的尽量改成固定元素列表(循环列表里没有点 击元素 ,直接是提取元素的不要用这种方法拆分 ,可以试试下面推荐的另一个加 速案例 )。这样才会拆分任务加快云采集速度。 其他云加速的案例 : 云采集规则优化加速案例 (2 )——循环翻页拆分

您可能关注的文档

文档评论(0)

zhuwo + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档