火车头采集器初学者入门教程.pptx

下载文档 降价啦

7
0
约6.32千字
约 45页
2016-08-24 发布于湖北
举报
版权申诉
保障服务

火车头采集器初学者入门教程.pptx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

火车头采集器初学者入门教程

火车头采集器　　　　使用流程说明主讲人：刘崇秀 QQ:2415290 目录　一、软件下载　二、新建站点三、采集网址四、采集内容五、其他功能火车头采集器官网地址为：最新版本为8.4，可以从官网下载到，下载地址：/v8/LocoySpider_V8.4_Builrar如不会安装apache、mysql可以使用一键安装软件—XAMPP：/xampp/xampp_1.8.3_5.exe以下是本文中提到的其他一些软件的下载地址： phpmyadmin /phpMyAdmin/phpMyAdmin_4.2.11.zip navicat for mysql版 /soft/38153.html 软件需要破解注册码：NAVH-WK6A-DMVK-DKW3名称和组织不用填写一、软件下载火车头采集器有付费版和免费版，免费版基本能满足需求。下面内容是以免费版功能进行的讲解。打开火车头软件出现如何界面，由于使用的是免费版本，不用修改，点击登录即可。运行火车头采集器打开火车头软件，界面如下图：二、新建站点第一步：根据需要建立分组或任务，任务需要建立在分组之下（如下图）二、新建站点二、新建站点第二步：点击“新建站点”后出现如下界面。填写任务名称点击起始网址区域右侧“添加”按钮后，根据需求选择添加采集网址模式，这里我们先选择“批量/多页”为例：三、采集网址三、采集网址以抓取慧聪业界动态/list/zx_yjdt.shtml为例：通过观察页脚网址参数变化，可以看到下方网址中标红部分数字随着页数大小发生了变动，随意复制其中一个网址，例如下方网址 /list/zx_yjdt-2.shtml 三、采集网址--批量/多页在地址格式中输入刚才复制的网址，框选中变动的数字，点击右侧的（*）符号会自动输入页码变动符号。由于该网址采用数字等差数列，在“等差数列”右侧首项输入想要采集的起始ID页数，“项数”右侧输入一共要采集的数量，一般为最后页码数。查看下方预览区域中网址是否正确，如正确点击“添加-完成”按钮。如果添加后发现有错误，可用鼠标点击完成下方的网址，选择删除即可。三、采集网址—单挑网址在“单挑或多条网址”区域下方输入要采集的网址（一行一个），点击添加“按钮—完成”按钮，完成添加。三、采集网址—文本导入有时我们知道要采集的网址，或者有时用程序批量生成要采集的网址可以用“文本导入”功能。下面是在文本编辑器中输入范例中的部分网址的示例，接着我们把这部分网址导入到火车头采集器中，作为采集目标源。三、采集网址—文本导入点击“浏览”按钮，找到自己想要导入的文本文件，点“确定”按钮返回该窗口，点击“添加-完成”按钮完成添加任务。三、采集网址点击“完成”按钮，则出现以下类似界面，起始网址处可以看到新添加的要采集的网址：三、采集网址--多级网址获取如果要获取的信息是在这个页面中的链接，就需要设定“多级网址获取”。点击“多级网址获取”右侧的“添加”按钮。三、采集网址--多级网址获取为了更精准获取要采集的网址，会设定在页面某区域中获取相关网址。以第一页为例，可以看到网址截取区域开始以及结尾页面的内容。网址截取区域开始网址截取区域结尾三、采集网址--多级网址获取查看页面源代码，我们以“业界动态”快速定位到要抓取网址区域开始附近，通过代码分析，可以判断出标红区域中代码为唯一代码（必须为唯一代码，否则抓取内容会不准确），标记为开始内容。同理可以获取到页尾代码： table width=100%trtd align=center class=pt_date 三、采集网址--多级网址获取 1、从网页自动分析得到地址链接：在方框内输入刚才判断的截取区域开始和结束代码，点击“保存”按钮。如想测试采集的网址效果，点击右下角的“测试网址采集”。如确定信息正确点击“保存”按钮。三、采集网址--手动填写链接地址规则 2、手动填写链接地址规则：与“从页面自动分析获得地址链接”模式多了一块功能区域。从网页源代码中我们可以看到每篇文章的源代码大体如下： ·a class=pt_date href=/2014/11/101854796747.shtmlO2O+会员营销,千亿盛宴你准备好了吗？/a font class=pt_date11月10日 18:54/font/td/trtrtd 其中粗体红色、蓝色为变动值，框住网址部分，点右侧的“[参数]”替换网址，“实际连接”处由于网址采用相对路径，需要手工加上前面域名和路径（如链接地址是完整的，可以忽略执行这一步。）其他变动信息用(*)替换掉。页面中可能还有部分要采集的数据，可以用“[标签：