网页抓取工具一个简单的文章采集示例.docxVIP

下载本文档

4
0
约1.09千字
约 7页
2017-05-13 发布于重庆
举报
版权申诉

网页抓取工具一个简单的文章采集示例.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

查看更多

网页抓取工具一个简单的文章采集示例

网页抓取工具：一个简单的文章采集示例通过采集网页抓取工具火车采集器官网的faq为例来说明采集器采集的原理和过程。本例以 HYPERLINK /qc-12.html \o /qc-12.html /qc-12.html 演示地址，以火车采集器V9为工具进行示例说明。（1）新建个采集规则选择一个分组上右击，选择“新建任务”，如下图：（2）添加起始网址在这里我们需要采集 5页数据。分析网址变量规律第一页地址：/qc-12.html?p=1 第二页地址：/qc-12.html?p=2 第三页地址：/qc-12.html?p=3 由此我们可以推算出p=后的数字就是分页的意思，我们用[地址参数]表示：所以设置如下: 地址格式：把变化的分页数字用[地址参数]表示。数字变化：从1开始，即第一页；每次递增1，即每次分页的变化规律数字；共5项，即一共采集5页。预览：采集器会按照上面设置的生成一部分网址，让你来判读添加的是否正确。然后确定即可（3）[常规模式]获取内容网址常规模式：该模式默认抓取一级地址，即从起始页源代码中获取到内容页A链接。在这里给大家演示用自动获取地址链接 +设置区域的方式来获取。查看页面源代码找到文章地址所在的区域：设置如下：注：更详细的分析说明可以参考本手册：操作指南软件操作网址采集规则获取内容网址点击网址采集测试，看看测试效果（3）内容采集网址以 HYPERLINK /q-1184.html \o /q-1184.html /q-1184.html 为例讲解标签采集注：更详细的分析说明可以下载参考官网的用户手册。操作指南软件操作内容采集规则标签编辑我们首先查看它的页面源代码，找到我们“标题”所在位置的代码： title导入Excle是跳出对话框~打开Excle出错 - 火车采集器帮助中心/title 分析得出：开头字符串为：title结尾字符串为：/title数据处理——内容替换/排除：需要把- 火车采集器帮助中心给替换为空内容标签的设置原理也是类似的，找到内容所在源码中的位置分析得出：开头字符串为：div id=cmsContent结尾字符串为：/div数据处理——HTML标签排除：把不需要的A链接等过滤再设置个“来源”字段这样一个简单的文章采集规则就做好了，使用通用的网页抓取工具火车采集器并按照这个示例的步骤就可以进行其它类型数据采集的扩展啦。

您可能关注的文档

最近下载

文档评论（0）

haihang2017 + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

相关文档

版权处理: 版权声明; 侵权处理; 免责声明; 致被侵权者一封信; 网站诺言

使用帮助: 用户协议; 隐私政策; 上传下载; 投稿帮助; 文档保障服务承诺

文赚学院: 文赚入门; 工具技巧; 官方动态; 文档分析

关于: 关于网站; 联系我们; 企业文化; 公司优势; 寻找合作

更多: 机构入驻; 内容整治报告; 原创力公益; 版权公示; 处罚记录; 分享赚钱

: 原创力文档APP下载

: 关注微信公众号

原创力文档从2008开站以来，已有超数十万网友上传了数亿文档，原创力文档定位于“知识资源平台、知识服务平台”；本网站为内容提供方提供“创作营收”解决方案：你只需要简单地上传及管理你的内容，而后续的宣传/推广/内容分发/售出下发/发票开具/知识增值创收都由我们完成，让你无后顾之忧，让你安心创作及上传更多优质地内容及提供知识服务！上传QQ群（最新）：751299218。
有任何问题，请随时联系智能客服，侵权专属客服QQ：2885784724！其它问题点击联系我们！本站内容，未经授权，不得采集、搬运！包括但不限于Al采集后用于训练，侵权必究！

公安局备案号:51011502000106|工信部备案号:蜀ICP备08101938号-1|ICP经营许可证/EDI许可证:川B2-20180569|公司营业执照|出版物经营许可证:成新出发高新字第046号|网信算备:510107145616301250011号
© 2010-2025 max.book118.com 原创力文档. All Rights Reserved 四川文动网络科技有限公司违法与不良信息举报电话：18582317992