- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
火车头采集器初学者入门教程
火车头采集器
使用流程说明
主讲人:刘崇秀
QQ:2415290
目录
一、软件下载
二、新建站点
三、采集网址
四、采集内容
五、其他功能
火车头采集器官网地址为:最新版本为8.4,可以从官网下载到,下载地址:/v8/LocoySpider_V8.4_Builrar如不会安装apache、mysql可以使用一键安装软件—XAMPP:/xampp/xampp_1.8.3_5.exe以下是本文中提到的其他一些软件的下载地址: phpmyadmin /phpMyAdmin/phpMyAdmin_4.2.11.zip navicat for mysql版 /soft/38153.html 软件需要破解注册码:NAVH-WK6A-DMVK-DKW3名称和组织不用填写
一、软件下载
火车头采集器有付费版和免费版,免费版基本能满足需求。下面内容是以免费版功能进行的讲解。打开火车头软件出现如何界面,由于使用的是免费版本,不用修改,点击登录即可。
运行火车头采集器
打开火车头软件,界面如下图:
二、新建站点
第一步:根据需要建立分组或任务,任务需要建立在分组之下(如下图)
二、新建站点
二、新建站点
第二步:点击“新建站点”后出现如下界面。填写任务名称
点击起始网址区域右侧“添加”按钮后,根据需求选择添加采集网址模式,这里我们先选择“批量/多页”为例:
三、采集网址
三、采集网址
以抓取慧聪业界动态/list/zx_yjdt.shtml为例:
通过观察页脚网址参数变化,可以看到下方网址中标红部分数字随着页数大小发生了变动,随意复制其中一个网址,例如下方网址
/list/zx_yjdt-2.shtml
三、采集网址--批量/多页
在地址格式中输入刚才复制的网址,框选中变动的数字,点击右侧的(*)符号会自动输入页码变动符号。由于该网址采用数字等差数列,在“等差数列”右侧首项输入想要采集的起始ID页数,“项数”右侧输入一共要采集的数量,一般为最后页码数。查看下方预览区域中网址是否正确,如正确点击“添加-完成”按钮。如果添加后发现有错误,可用鼠标点击完成下方的网址,选择删除即可。
三、采集网址—单挑网址
在“单挑或多条网址”区域下方输入要采集的网址(一行一个),点击添加“按钮—完成”按钮,完成添加。
三、采集网址—文本导入
有时我们知道要采集的网址,或者有时用程序批量生成要采集的网址可以用“文本导入”功能。下面是在文本编辑器中输入范例中的部分网址的示例,接着我们把这部分网址导入到火车头采集器中,作为采集目标源。
三、采集网址—文本导入
点击“浏览”按钮,找到自己想要导入的文本文件,点“确定”按钮返回该窗口,点击“添加-完成”按钮完成添加任务。
三、采集网址
点击“完成”按钮,则出现以下类似界面,起始网址处可以看到新添加的要采集的网址:
三、采集网址--多级网址获取
如果要获取的信息是在这个页面中的链接,就需要设定“多级网址获取”。
点击“多级网址获取”右侧的“添加”按钮。
三、采集网址--多级网址获取
为了更精准获取要采集的网址,会设定在页面某区域中获取相关网址。以第一页为例,可以看到网址截取区域开始以及结尾页面的内容。
网址截取区域开始
网址截取区域结尾
三、采集网址--多级网址获取
查看页面源代码,我们以“业界动态”快速定位到要抓取网址区域开始附近,通过代码分析,可以判断出标红区域中代码为唯一代码(必须为唯一代码,否则抓取内容会不准确),标记为开始内容。同理可以获取到页尾代码:
table width=100%trtd align=center class=pt_date
三、采集网址--多级网址获取
1、从网页自动分析得到地址链接:
在方框内输入刚才判断的截取区域开始和结束代码,点击“保存”按钮。如想测试采集的网址效果,点击右下角的“测试网址采集”。如确定信息正确点击“保存”按钮。
三、采集网址--手动填写链接地址规则
2、手动填写链接地址规则:
与“从页面自动分析获得地址链接”模式多了一块功能区域。
从网页源代码中我们可以看到每篇文章的源代码大体如下:
·a class=pt_date href=/2014/11/101854796747.shtmlO2O+会员营销,千亿盛宴你准备好了吗?/a font class=pt_date11月10日 18:54/font/td/trtrtd
其中粗体红色、蓝色为变动值,框住网址部分,点右侧的“[参数]”替换网址,“实际连接”处由于网址采用相对路径,需要手工加上前面域名和路径(如链接地址是完整的,可以忽略执行这一步。)其他变动信息用(*)替换掉。
页面中可能还有部分要采集的数据,可以用“[标签:
您可能关注的文档
最近下载
- 高热封强度耐135℃高温蒸煮的CPP膜及其制备方法.pdf VIP
- 物业交接表格-全.pdf VIP
- (高清版)DG∕TJ 08-2433B-2023 外墙保温一体化系统应用技术标准(现浇混凝土保温外墙).docx VIP
- GB8478-2020 铝合金门窗国家标准.pdf VIP
- 福建福州市八县市2024-2025高二上学期期中数学试卷及答案.pdf VIP
- 正确的员工考核评分表1.doc VIP
- 部编版三年级下册晋升职称无生试讲稿——22.我们奇妙的世界(1).docx VIP
- 《人工智能发展历程》课件.ppt VIP
- 十五规划PPT课件.pptx VIP
- 入党积极分子考试题库及答案.docx VIP
原创力文档


文档评论(0)