- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
网页抓取工具一个简单的文章采集示例
网页抓取工具:一个简单的文章采集示例
通过采集网页抓取工具火车采集器官网的faq为例来说明采集器采集的原理和过程。 本例以 HYPERLINK /qc-12.html \o /qc-12.html /qc-12.html 演示地址,以火车采集器V9为工具进行示例说明。
(1)新建个采集规则选择一个分组上右击,选择“新建任务”,如下图:
(2)添加起始网址在这里我们需要采集 5页数据。
分析网址变量规律第一页地址:/qc-12.html?p=1
第二页地址:/qc-12.html?p=2
第三页地址:/qc-12.html?p=3
由此我们可以推算出p=后的数字就是分页的意思,我们用[地址参数]表示:
所以设置如下:
地址格式:把变化的分页数字用[地址参数]表示。
数字变化:从1开始,即第一页;每次递增1,即每次分页的变化规律数字; 共5项,即一共采集5页。
预览:采集器会按照上面设置的生成一部分网址,让你来判读添加的是否正确。
然后确定即可
(3)[常规模式]获取内容网址常规模式:该模式默认抓取一级地址,即从起始页源代码中获取到内容页A链接。
在这里给大家演示用 自动获取地址链接 +设置区域 的 方式来获取。
查看页面源代码找到文章地址所在的区域:
设置如下:
注:更详细的分析说明可以参考本手册:
操作指南 软件操作 网址采集规则 获取内容网址
点击网址采集测试,看看测试效果
(3)内容采集网址以 HYPERLINK /q-1184.html \o /q-1184.html /q-1184.html 为例讲解标签采集
注:更详细的分析说明可以下载参考官网的用户手册。
操作指南 软件操作 内容采集规则 标签编辑
我们首先查看它的页面源代码,找到我们“标题”所在位置的代码:
title导入Excle是跳出对话框~打开Excle出错 - 火车采集器帮助中心/title
分析得出: 开头字符串为:title结尾字符串为:/title数据处理——内容替换/排除:需要把- 火车采集器帮助中心 给替换为空
内容标签的设置原理也是类似的,找到内容所在源码中的位置
分析得出: 开头字符串为:div id=cmsContent结尾字符串为:/div数据处理——HTML标签排除:把不需要的A链接等过滤
再设置个“来源”字段
这样一个简单的文章采集规则就做好了,使用通用的网页抓取工具火车采集器并按照这个示例的步骤就可以进行其它类型数据采集的扩展啦。
您可能关注的文档
最近下载
- 贵州省2024年高职(专科)分类考试招生中职毕业生文化综合考试数学.docx VIP
- HP DeskJet 2700 多功能一体打印机中文说明书.pdf
- (完整版)2025年全国自考《马克思主义基本原理概论》真题及答案汇总.docx VIP
- 欧科PT300变频器说明书.pdf
- 全版《边城》ppt课件.pptx VIP
- 2-5《无常》(思维导图) 统编版七年级语文上册大单元教学.docx VIP
- 2025年辅警招聘考试试题库及答案详解(各地真题).docx
- 在泥沙中崛起三门峡(连载3).doc VIP
- 高龄患者的麻醉要点.ppt VIP
- 天安人寿附加吉祥树终身重大疾病保险条款0101.docx VIP
文档评论(0)