火车头采集器初学者入门教程.pptx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
火车头采集器初学者入门教程

火车头采集器     使用流程说明 主讲人:刘崇秀 QQ:2415290 目录  一、软件下载  二、新建站点 三、采集网址 四、采集内容 五、其他功能 火车头采集器官网地址为: 最新版本为8.4,可以从官网下载到,下载地址: /v8/LocoySpider_V8.4_Builrar 如不会安装apache、mysql可以使用一键安装软件—XAMPP: /xampp/xampp_1.8.3_5.exe 以下是本文中提到的其他一些软件的下载地址: phpmyadmin /phpMyAdmin/phpMyAdmin_4.2.11.zip navicat for mysql版 /soft/38153.html 软件需要破解 注册码:NAVH-WK6A-DMVK-DKW3 名称和组织不用填写 一、软件下载 火车头采集器有付费版和免费版,免费版基本能满足需求。下面内容是以免费版功能进行的讲解。 打开火车头软件出现如何界面,由于使用的是免费版本,不用修改,点击登录即可。 运行火车头采集器 打开火车头软件,界面如下图: 二、新建站点 第一步:根据需要建立分组或任务,任务需要建立在分组之下(如下图) 二、新建站点 二、新建站点 第二步:点击“新建站点”后出现如下界面。填写任务名称 点击起始网址区域右侧“添加”按钮后,根据需求选择添加采集网址模式,这里我们先选择“批量/多页”为例: 三、采集网址 三、采集网址 以抓取慧聪业界动态/list/zx_yjdt.shtml为例: 通过观察页脚网址参数变化,可以看到下方网址中标红部分数字随着页数大小发生了变动,随意复制其中一个网址,例如下方网址 /list/zx_yjdt-2.shtml 三、采集网址--批量/多页 在地址格式中输入刚才复制的网址,框选中变动的数字,点击右侧的(*)符号会自动输入页码变动符号。 由于该网址采用数字等差数列,在“等差数列”右侧首项输入想要采集的起始ID页数,“项数”右侧输入一共要采集的数量,一般为最后页码数。 查看下方预览区域中网址是否正确,如正确点击“添加-完成”按钮。如果添加后发现有错误,可用鼠标点击完成下方的网址,选择删除即可。 三、采集网址—单挑网址 在“单挑或多条网址”区域下方输入要采集的网址(一行一个),点击添加“按钮—完成”按钮,完成添加。 三、采集网址—文本导入 有时我们知道要采集的网址,或者有时用程序批量生成要采集的网址可以用“文本导入”功能。 下面是在文本编辑器中输入范例中的部分网址的示例,接着我们把这部分网址导入到火车头采集器中,作为采集目标源。 三、采集网址—文本导入 点击“浏览”按钮,找到自己想要导入的文本文件,点“确定”按钮返回该窗口,点击“添加-完成”按钮完成添加任务。 三、采集网址 点击“完成”按钮,则出现以下类似界面,起始网址处可以看到新添加的要采集的网址: 三、采集网址--多级网址获取 如果要获取的信息是在这个页面中的链接,就需要设定“多级网址获取”。 点击“多级网址获取”右侧的“添加”按钮。 三、采集网址--多级网址获取 为了更精准获取要采集的网址,会设定在页面某区域中获取相关网址。以第一页为例,可以看到网址截取区域开始以及结尾页面的内容。 网址截取区域开始 网址截取区域结尾 三、采集网址--多级网址获取 查看页面源代码,我们以“业界动态”快速定位到要抓取网址区域开始附近,通过代码分析,可以判断出标红区域中代码为唯一代码(必须为唯一代码,否则抓取内容会不准确),标记为开始内容。同理可以获取到页尾代码: table width=100%trtd align=center class=pt_date 三、采集网址--多级网址获取 1、从网页自动分析得到地址链接: 在方框内输入刚才判断的截取区域开始和结束代码,点击“保存”按钮。如想测试采集的网址效果,点击右下角的“测试网址采集”。如确定信息正确点击“保存”按钮。 三、采集网址--手动填写链接地址规则 2、手动填写链接地址规则: 与“从页面自动分析获得地址链接”模式多了一块功能区域。 从网页源代码中我们可以看到每篇文章的源代码大体如下: ·a class=pt_date href=/2014/11/101854796747.shtmlO2O+会员营销,千亿盛宴你准备好了吗?/a font class=pt_date11月10日 18:54/font/td/trtrtd 其中粗体红色、蓝色为变动值,框住网址部分,点右侧的“[参数]”替换网址,“实际连接”处由于网址采用相对路径,需要手工加上前面域名和路径(如链接地址是完整的,可以忽略执行这一步。)其他变动信息用(*)替换掉。 页面中可能还有部分要采集的数据,可以用“[标签:

文档评论(0)

335415 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档