火车头采集器初学者入门教程.pptxVIP

  • 6
  • 0
  • 约1.07千字
  • 约 45页
  • 2017-07-16 发布于四川
  • 举报
火车头采集器     使用流程说明;目录;火车头采集器官网地址为: 最新版本为8.4,可以从官网下载到,下载地址: /v8/LocoySpider_V8.4_Builrar 如不会安装apache、mysql可以使用一键安装软件—XAMPP: /xampp/xampp_1.8.3_5.exe 以下是本文中提到的其他一些软件的下载地址: phpmyadmin /phpMyAdmin/phpMyAdmin_4.2.11.zip navicat for mysql版 /soft/38153.html 软件需要破解 注册码:NAVH-WK6A-DMVK-DKW3 名称和组织不用填写 ;火车头采集器有付费版和免费版,免费版基本能满足需求。下面内容是以免费版功能进行的讲解。 打开火车头软件出现如何界面,由于使用的是免费版本,不用修改,点击登录即可。;打开火车头软件,界面如下图:;第一步:根据需要建立分组或任务,任务需要建立在分组之下(如下图);二、新建站点;点击起始网址区域右侧“添加”按钮后,根据需求选择添加采集网址模式,这里我们先选择“批量/多页”为例:;三、采集网址;三、采集网址--批量/多页;三、采集网址—单挑网址;三、采集网址—文本导入;三、采集网址—文本导入;三、采集网址; 三、采集网址--多级网址获取; 三、采集网址--多级网址获取; 三、采集网址--多级网址获取; 三、采集网址--多级网址获取; 三、采集网址--手动填写链接地址规则; 三、采集网址--测试网址采集; 三、采集网址—网址过滤; 三、采集内容; 三、采集内容; 三、采集内容—分页获取; 三、采集内容—分析需要采集字段; 三、采集内容—标签修改; 三、采集内容—内容替换; 三、采集内容—文件下载选项配置; 三、采集内容—HTML标签过滤; 三、采集内容—正则提取; 三、采集内容—正则提取; 四、内容发布—存成文件格式; 四、内容发布—导入到自定义数据库; 四、内容发布—导入到自定义数据库; 四、内容发布—导入到自定义数据库; 四、内容发布—导入到自定义数据库; 四、内容发布—导入到自定义数据库; 四、内容发布—导入到自定义数据库; 四、内容发布—导入到自定义??据库; 四、内容发布—导入到自定义数据库; 四、内容发布—导入到自定义数据库; 五、其他功能—重新采集其他数据;五、其他功能—导出任务;五、其他功能—导入任务;END THANKS!

文档评论(0)

1亿VIP精品文档

相关文档