- 22
- 0
- 约1.31千字
- 约 26页
- 2021-10-21 发布于浙江
- 举报
火车头采集步骤和数据导出详解 火车头采集步骤和数据导出详解火车头采集步骤和数据导出详解 1、什么是采集源? 2、认识火车头采集工具 3、火车头采集工具的使用方法 4、数据导出与处理课程内容 第一页,共26页。 1、什么是采集源? 2、认识火车头采集工具 3、火车头采集工具的使用方法 4、数据导出与处理 课程内容 第二页,共26页。 1、什么是采集源? 一些网站有大量的文章、图片、邮箱等信息,对我们来说是一种资源,我们可以利用工具将这些资源采集回来,为我们所用。 这样的网站,就是采集源。 第三页,共26页。 1.1 什么样的网站能成为“采集源”? 1、采集的目标页面,不需要登录即可访问; 2、采集的内容列表页面url跟随一定的规律改变; 3、该网站不屏蔽不干扰采集器的工作。 第四页,共26页。 2、认识火车头采集工具 火车采集器,是目前使用人数最多的互联网数据抓取、处理、分析,挖掘软件。 软件凭借其灵活 的配置与强大的性能领先国内数据采集类产品。 使用火车采集器,你可以建立一个拥有庞大内容的网站。 第五页,共26页。 2.1、火车头采集工具的工作原理 火车采集器如何去抓取数据,取决于您的规则。 要获取内容页的内容,首先需要先将这个网页的网址采下来,这就是采网址。 程序按规则抓取列表页里的内容页url。再根据您的采集规则,将,将标题内容等信息分离开来并保存下来。 如果选择了下载图片,程序会对采集到的数据进行分析,找出图片的下载地址并将图片下载到本地。 第六页,共26页。 3、火车头采集工具的使用方法 3.1 打开火车头工具,单击左侧空白处,根据需要新建分组 第七页,共26页。 3.2 右击刚才建立好的分组,新建采集任务,并填写好任务名称 第八页,共26页。 3.3 填写批量采集网址规则,注意先分析目标列表页url规则 第九页,共26页。 3.4 设置“多级网址获取”规则 第十页,共26页。 3.4 设置“多级网址获取”规则,并测试设置好的规则是否生效 第十一页,共26页。 3.5 校验设置好的规则是否生效,如果生效,则返回修改设置;如果得到的结果不正确,也需要返回修改设置(重新分析采集范围是否正确,一直校验到是我们需要的结果) 第十二页,共26页。 3.6 返回修改采集的项数,并且记得点击“添加”和“完成” 第十三页,共26页。 3.7 进入到第二步“采集内容规则” 采集文章的标题,选中“标题”,点击左侧的修改,选择“前后截取”,将文章标题的html区域填写完整,右侧“典型页面”填写一条内容页url,以供随时测试。 第十四页,共26页。 3.8 采集文章的“摘要” 第十五页,共26页。 3.9 采集文章的“标签” 第十六页,共26页。 3.10 采集文章的“内容” 填写内容所在区间的html标签,添加数据处理,勾选“下载图片”并填写文件保存目录和格式,最后点击确定。 第十七页,共26页。 3.11 保存设置好的采集任务 第十八页,共26页。 3.12 开始采集任务 我们会看到,右侧任务运行的状况,一切正常 第十九页,共26页。
原创力文档

文档评论(0)