- 1、本文档共35页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
火车头_2010SP3_网站采集教程.doc
火车头——2010SP3——网站采集教程
下载地址:/Down/ 我们下载免费版。。。。注意:想用火车,就必须得安装.NET FrameWork 2.0框架或更高版本.net framework 2.0下载地址: /那么,火车我们也下载到本地了,。net框架,我们也安装了。。。那么,我们把新下载的火车采集软件,解压下。。。看到一些密密麻麻乱七八糟的东西及文件。。。那么。。。上图中,用红线圈住的LocoySpider.exe 是主程序,我们双击打开。。。ps:这里说下,上图中,有好多任务是我自己用的。。。新程序,并没有那么多。。。我们会看到火车的界面,看起来非常复杂,是吧? 呵呵,其实并没有那么复杂,对于新手,有好多东西是用不到的。。。下边会一一的讲解。。。我们先补习一下,火车头采集软件的工作原理。。。因为我们浏览到的网页,最后都是通过html输出的,那么意味着,我们可以查看到html的源码,那么火车头为什么会采集到内容呢?我们看下网站的基本结构。。。!DOCTYPE html PUBLIC -//W3C//DTD XHTML 1.0 Transitional//EN /TR/xhtml1/DTD/xhtml1-transitional.dtdhtml xmlns=/1999/xhtmlheadmeta http-equiv=Content-Type content=text/html; charset=utf-8 / -------这些蓝色的东西,对于新手,我们不需要知道!title网页的标题/title ----红色的是网页的标题。。。如下图(1)/headbody内容? ?? ?? ?? ?? ? 在这个body和/body之间的,是网站的内容部分。。如下图(2)/body/html ----------这里是网站的结尾。。。。如果想查看一个网页的html源文件,之需要点击浏览器上的 查看,源文件即可。。。。(1)(2)那么,我们知道了一个网页最基本的架构,那么就好理解火车采集的基本原理了火车采集软件是怎么采集的呢?我们配置好火车头采集规则,什么叫采集规则?就是我们查看网页的源文件,看看整个网页的源码,内容部分的开始标签,和结束标签,这样火车才能知道,我们要采集这个页面的哪个部分,比如下边我们演示的。。。!DOCTYPE html PUBLIC -//W3C//DTD XHTML 1.0 Transitional//EN /TR/xhtml1/DTD/xhtml1-transitional.dtdhtml xmlns=/1999/xhtmlheadmeta http-equiv=Content-Type content=text/html; charset=utf-8 /title网页的标题/title/headbody内容/body我们想要采集“内容”那么就要告诉火车采集器,内容开始标签是body,结束标签就是/body明白了么?呃。。。估计是我的表达能力不够好。。。so。。。我们看下边的实例,在好好巩固下就OK。。。
OK。。那么我们开始一步一步教大家设置采集规则。。。首先第一个。。我们的目标站。。discuz!x1.5架构的网站。。。/forum-60-1.html我们要把这个版块的内容以及回复都采集到我们的网站上去。。。首先我们打开火车,新建一个站点。。。点击火车左上角上的新建按钮,选择新建站点。。。如下图我们只需要填写站点名就可以,其余的保持默认,然后点击保存按钮!然后。。。在这个站点下,新建一个任务。。。选中我们新建的站点,点击鼠标右键,选择第一个,从该站点新建任务。。。如下图其中1,是任务的名字,必须填写。。。2,是整个采集任务的步骤向导,3,是文章列表的设置区域(下边讲解),4,和3差不多。。。5,是登录的地方,有些网址必须登录,我们才可以看到内容,就是这个东西!OK。就这些,那么,我们一步一步的来!首先我们给我们的任务加一个标题。。。下一步,我们就开始设置列表的采集规则
(因为现在火车不知道 /forum-60-1.html 这个页面的文章列表是那些,所以我们要告诉火车!)
这里有两种方式,新手嘛,我也不知道适合哪种。。。我们就用默认的吧,第一种我们点击向导添加然后出现下图。。其中有4个选项卡,如果我们只采集目标站点的一个文章列表/forum-60-1.html,那么我们选中单条网址,直接写上目标的列表网站,如下图!然后点击添加,点击完成就OK。。那么,如果我们要采集多个列表。那么我们回到 看下边的图其中1,是目标网站的地址其中2,是火车的通配符(就是某个东西识别的
您可能关注的文档
- 正确认识和选用缓释控释肥.pdf
- 母畜生殖系统.ppt
- 毕业设计(论文)题目:班级同学录网站系统.pdf
- 毕业设计任务书(理工类)电子科技书店.doc
- 气温和降水突破.doc
- 氢醌洗剂制备及临床应用.pdf
- 氯仿的致突变,致畸和致癌性研究进展.pdf
- 水印制作教程.doc
- 水晶冰块.doc
- 水晶头接法图解教程.doc
- 基于国家智慧教育云平台的教师培训评价体系构建与实施效果评估教学研究课题报告.docx
- 《基于人工智能的高中数学与信息技术的跨学科课程整合》教学研究课题报告.docx
- 高效钙钛矿太阳能电池制备工艺优化及性能评估教学研究课题报告.docx
- 专业人才短缺对中小博物馆文物征集的制约.docx
- 中兰环保(300854)公司2024年财务分析研究报告.doc
- 2025至2030透析机市场前景分析及投资策略与风险管理报告.docx
- 《EDA基础及应用》课件——第1章 数据比较器的设计.pptx
- 提升小学生自主学习能力的思维模式与学习路径可视化.docx
- 多元化资源在小学音乐跨学科学习中的有效利用.docx
- 种植密度与栽培模式优化对单产的贡献.docx
最近下载
- 统编版六年级语文上册习作《多彩的活动》精品课件(共84张PPT).pptx VIP
- 电厂2×600MW机组扩建工程建筑及安装工程土建专业主要技术施工方案.docx VIP
- 电厂2×600MW扩建(脱硫土建、安装)工程土建专业主要施工技术方案.docx VIP
- 电厂2×600MW机组扩建工程建筑及安装锅炉专业施工技术方案.docx VIP
- 煤电公司2×600MW机组工程汽机专业主要施工技术方案.pdf VIP
- 2X660MW超超临界燃煤机组工程qtz2500型塔式起重机安装的施工方案.doc VIP
- 2X660MW超超临界燃煤机组工程#2锅炉平台楼梯安装方案全案(终版).doc VIP
- 2X660MW超超临界燃煤机组工程#2锅炉平台楼梯安装的方案.doc VIP
- 电厂(2×660MW超超临界机组)机组安装工程锅炉专业施工方案.docx VIP
- 电厂(2×660MW超超临界机组)机组安装工程汽机专业施工方案.docx VIP
文档评论(0)