- 3
- 0
- 约小于1千字
- 约 9页
- 2026-06-10 发布于山东
- 举报
八爪鱼数据采集课程第6节:XPath应用
自定义抓取理解网页上的数据类型十分丰富:文本、图片、链接、源码等。在数据采集过程中,不同类型的数据类型,对应的抓取方式是不同的。本文将讲解常见的数据类型与其抓取方式。
自定义抓取需求:采集图片地址示例网址:/explore#!type=movietag=%E7%BB%8F%E5%85%B8sort=recommendpage_limit=20page_start=0Step1.在字段中选择【元素抓取方式】Step2.鼠标选中页面中的图片,在弹出的操作提示框中选择【采集该图片地址】
数字翻页常用Xpathfollowing-sibling::a选取当前节点之后的所有同级a节点(可替换为其他标签),常用于数字翻页示例网址:/tag/%E7%AB%A5%E8%AF%9D
数字翻页需求:设置翻页示例网址:/news/Step1.先定位到当前页;再定位到当前页的下一页Step2.在八爪鱼中创建一个【循环翻页】,将写好的XPath://span[@class=thisclass]/following-sibling::a[1],复制到【单个元素】后面的文本框中,点击【确定】保存。
实战演练:采集列表页的数据并翻页数据源网站搜索关键词:机器人,采集所有机器人商品主图+轮播图链接采集需求【商品标题】、【商品链接】、【主图+
您可能关注的文档
- 《商务数据采集与处理》课件 第1节:采集基础.pptx
- 《商务数据采集与处理》课件 第2节:高级选项.pptx
- 《商务数据采集与处理》课件 第3节:数据处理.pptx
- 《商务数据采集与处理》课件 第4节:判断条件与下拉框.pptx
- 《商务数据采集与处理》课件 第8节:排错与实战.pptx
- 《商务数据采集与处理》课件 第9节:实战案例.pptx
- 30_2026深圳新七年级英语暑假衔接学情诊断A卷.docx
- 某制药厂研发实验规范.docx
- 某机械厂设备润滑准则.docx
- 某汽修厂维修作业安全规范.docx
- 康复护理中的营养支持技术.pptx
- 批次03-04_2025-2026学年苏州市七年级语文下册期末质量检测原创仿真模拟试卷第001套.docx
- 批次03-03_2026届上海市闵行区六年级英语小升初分班考试模拟试卷第001套.docx
- 水域救援指南..docx
- 批次03-05_2026届成都市高一历史学业水平合格性考试原创仿真模拟试卷第001套.docx
- 批次03-01_2026届广州市白云区六年级数学小升初分班考试模拟试卷第001套.docx
- 批次03-02_2026届广州市越秀区八年级生物学业水平考试考前仿真模拟试卷第001套.docx
- 27_2026杭州新七年级英语暑假衔接学情诊断A卷.docx
- 2025-2026学年吉林省长春市第七十二中学八年级(下)期中道德与法治试卷(含答案).docx
- 2025-2026学年江苏省苏州市振华中学七年级(下)期中道德与法治试卷(含答案).docx
原创力文档

文档评论(0)