- 1、本文档共28页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
火车头采集器 介绍及使用流程说明
目录
一、软件介绍
二、创建任务
三、采集网址
四、采集内容
五、字段处理
一、软件介绍
《火车采集器》能为您做些什么呢??1、网站内容维护:可以定时采集新闻、文章等任何您想采集的内容,并自动发布到您的网站。2、Internet数据挖掘:可以从指定网站抓取所需数据,通过分析和处理后保存到您的数据库。3、网络信息监控:通过自动采集,可以监控论坛等社区类网站,让您第一时间发现您所关注的内容。4、文件批量下载:可以批量下载PDF、RAR、图片等各种文件,并同时采集其相关信息。火车采集器是目前信息采集与信息挖掘处理类软件中最流行、性价比最高、使用人数最多、市场占有率最大、使用周期最长的智能采集程序。
一、软件介绍
火车采集器数据发布原理:
在我们将数据采集下来后数据默认是保存在本地的,我们可以使用以下几种方式对种据进行处理。
1.不做任何处理。因为数据本身是保存在数据库的(access或是db3),您如果只是想看一下,直接用相关软件查看就可以了。
2.web发布到网站。程序会模仿浏览器向您的网站发送数据,可以实现您手工发布的效果。
3.直接入数据库。您只需写几个SQL语句,程序会将数据按您的SQL语句导入到数据库中。
4.保存为本地文件。程序会读取数据库里的数据,按一定格式保存为本地sql或是文本文件。
二、创建任务
打开火车头软件,界面如下:
二、创建任务
1.新建分组
填写分组名称
二、创建任务
2.新建任务
填写任务名称
添加采集网址
三、采集网址
点击“添加”按钮出现如下界面
三、采集网址
切换至“批量/多页”选项卡,可以批量添加网址
网址通用序号用通配符(*)替换
这添加方式主要用来处理分页网址
三、采集网址
切换至“其他网址格式”选项卡,也可以批量添加网址
网址通用序号用通配符(*)替换
这添加方式主要用来处理含有日期的网址
日期格式
三、采集网址
多级网址采集
点击‘添加’按钮
网址过滤条件
三、采集网址
手动采集配置链接地址规则:
手动连接格式是将需要的网址用参数来获得并组合成我们需要的网址。这个好处是处理网址那块有规律的网址很好处理。而且可以用这方法采集需要的字段,如:公告新闻类的标题、日期等。
点击单选按钮来切换
配置网址采集规则
三、采集网址
点击完成之后,则出现如下情况:
完成采集网址步骤之后,点击“测试网址采集”按钮。会出现如下界面:
采集网址规则展示
配置网址采集规则
网址全部采集完成后,可以双击网址进行
内容采集;如需修改则点击“返回修改设置”
四、采集内容
双击网址或者点击‘测试该页’就能跳转到采集内容界面在典型页面中会出现刚才选中的网址,这里就是测试采集内容。左边的标签名下面有:出处、时间、作者、内容、标题五个初始标签,可以对标签进行添加、删除和编辑等操作。
四、采集内容
编辑字段规则
以深交所的/main/rule/bsywgzshtml为例:现在要提取标题,日期和信息内容。
四、采集内容
打开/main/rule/bsywgzshtml 页面并查看该页的HTML源代码。在源代码中可以找到页面中的标题部分,如图:
复制这段代码以及前后的相关html代码,将标题内容设为”参数”之后,通过正则匹配的方式获取:如图:
匹配规则
测试效果情况
四、采集内容
同样可以用这类似的方式来采集信息内容:
还是先通过内容附近的关键字段:
采集效果:
前后匹配字符串
四、采集内容
通过之前的方式采集可以看到内容包含了很多的html标签,这些并不是所需要的,因此需对其进行处理。
在数据处理项点击添加,选中html标签过滤:
点击‘全选’再按‘确定’即可。
处理之后的效果
四、采集内容
备注:
前后字符串截取与正则提取是火车头最基本、最常用的两种采集方式,其原理就是通过网页源代码中的前后关键字来获取所要采集的内容,通常这类前后的关键字在网页源代码中具有一定的唯一性。
五、字段处理
火车头采集器除了有最基本的采集截取之外,还有大量的对数据自动作特殊处理的功能。
内容替换:内容替换功能是将采集后的字段中的一些内容替换成需要的格式,如有时采到的日期为xxxx年xx月xx日,而我们需要xxxx-xx-xx的格式,就可以采取这个功能。
五、字段处理
网页编码设定:
每个网站都有一个相对应的编码:如UTF-8。如果选错编码,则采集出来的数据就会呈现一种乱码格式。
大多数的网页编码火车头都可以自动识别,如不能则需要手动指定一个编码格式。(网页对应的编码格式通常会在源代码的head里)
五、字段处理
循环采集处理
循环采集就是在一个页面中用相同的采集方式获取字段:
以/main/rule/为例:如果要获取深交所法规的
您可能关注的文档
- 第3课《记金华的双龙洞》共2课时终稿.ppt
- 如何进行高效写作与有效投稿答案.ppt
- 如何建设安全生产标准化答案.ppt
- 第3课《爬天都峰》课件终稿.ppt
- 神头锅炉专业划分表(A版备用)答案.doc
- 中国古代经济--复习题库.ppt
- 如何和同学搞好关系答案.ppt
- 如何搞好医患关系答案.doc
- 单纯丰富--造型基础——素描终稿.ppt
- 第3课《爬天都峰》终稿.ppt
- 学雷锋道德讲堂课件.pptx
- 2025上海海事大学招聘研究人员笔试高频难、易错点备考题库参考答案详解.docx
- 2025上海海事大学招聘研究人员笔试备考题库附答案详解.docx
- 2025上海海事大学招聘研究人员笔试高频难、易错点备考题库及参考答案详解1套.docx
- 1.5 数学归纳法同步课时作业 (含答案)高二数学北师大版(2019)选择性必修第二册.docx
- 2025年河北政法职业学院选聘13人笔试模拟试题参考答案详解.docx
- 2025年供应链金融贷款购销合同规范文本.docx
- 静脉用药安全与临床常用输液配伍禁忌.pptx
- 班会课大赛课件和稿子.pptx
- 人音版第八册 第八课 《乘着歌声的翅膀》.docx
最近下载
- 诸侯纷争与变法运动【课件】.pptx VIP
- 中国高血压防治指南(2024年修订版)_中国高血压防治指南修订委员会__.pdf VIP
- “扬子石化杯”2024年第38届中国化学奥林匹克(江苏赛区)初赛化学.pdf VIP
- 民事诉讼法中案外第三人对执行的异议之诉.pdf VIP
- 车险承保方案.pdf VIP
- “扬子石化杯”2024年第38届中国化学奥林匹克(江苏赛区)初赛化学试卷含答案.pdf VIP
- 临海市城市生活垃圾焚烧发电厂扩建工程环境影响报告.pdf
- 2025内蒙古鄂尔多斯市公安机关招聘留置看护警务辅助人员115人笔试参考题库附答案解析.docx VIP
- 模电教案-李国丽.doc
- 2023版中国结直肠癌及癌前病变内镜诊治共识PPT课件.pptx VIP
文档评论(0)