火车头_2010SP3_网站采集教程.docVIP

下载本文档

1
0
约6.9千字
约 35页
2017-08-11 发布于北京
举报
版权申诉

火车头_2010SP3_网站采集教程.doc

1、本文档共35页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

火车头_2010SP3_网站采集教程.doc

火车头——2010SP3——网站采集教程下载地址：/Down/ 我们下载免费版。。。。注意：想用火车，就必须得安装.NET FrameWork 2.0框架或更高版本.net framework 2.0下载地址: /那么，火车我们也下载到本地了，。net框架，我们也安装了。。。那么，我们把新下载的火车采集软件，解压下。。。看到一些密密麻麻乱七八糟的东西及文件。。。那么。。。上图中，用红线圈住的LocoySpider.exe 是主程序，我们双击打开。。。ps：这里说下，上图中，有好多任务是我自己用的。。。新程序，并没有那么多。。。我们会看到火车的界面，看起来非常复杂，是吧？呵呵，其实并没有那么复杂，对于新手，有好多东西是用不到的。。。下边会一一的讲解。。。我们先补习一下，火车头采集软件的工作原理。。。因为我们浏览到的网页，最后都是通过html输出的，那么意味着，我们可以查看到html的源码，那么火车头为什么会采集到内容呢？我们看下网站的基本结构。。。!DOCTYPE html PUBLIC -//W3C//DTD XHTML 1.0 Transitional//EN /TR/xhtml1/DTD/xhtml1-transitional.dtdhtml xmlns=/1999/xhtmlheadmeta http-equiv=Content-Type content=text/html; charset=utf-8 / -------这些蓝色的东西，对于新手，我们不需要知道！title网页的标题/title ----红色的是网页的标题。。。如下图（1）/headbody内容? ?? ?? ?? ?? ? 在这个body和/body之间的，是网站的内容部分。。如下图（2）/body/html ----------这里是网站的结尾。。。。如果想查看一个网页的html源文件，之需要点击浏览器上的查看，源文件即可。。。。（1）（2）那么，我们知道了一个网页最基本的架构，那么就好理解火车采集的基本原理了火车采集软件是怎么采集的呢？我们配置好火车头采集规则，什么叫采集规则？就是我们查看网页的源文件，看看整个网页的源码，内容部分的开始标签，和结束标签，这样火车才能知道，我们要采集这个页面的哪个部分，比如下边我们演示的。。。!DOCTYPE html PUBLIC -//W3C//DTD XHTML 1.0 Transitional//EN /TR/xhtml1/DTD/xhtml1-transitional.dtdhtml xmlns=/1999/xhtmlheadmeta http-equiv=Content-Type content=text/html; charset=utf-8 /title网页的标题/title/headbody内容/body我们想要采集“内容”那么就要告诉火车采集器，内容开始标签是body，结束标签就是/body明白了么？呃。。。估计是我的表达能力不够好。。。so。。。我们看下边的实例，在好好巩固下就OK。。。 OK。。那么我们开始一步一步教大家设置采集规则。。。首先第一个。。我们的目标站。。discuz！x1.5架构的网站。。。/forum-60-1.html我们要把这个版块的内容以及回复都采集到我们的网站上去。。。首先我们打开火车，新建一个站点。。。点击火车左上角上的新建按钮，选择新建站点。。。如下图我们只需要填写站点名就可以，其余的保持默认，然后点击保存按钮！然后。。。在这个站点下，新建一个任务。。。选中我们新建的站点，点击鼠标右键，选择第一个，从该站点新建任务。。。如下图其中1，是任务的名字，必须填写。。。2，是整个采集任务的步骤向导，3，是文章列表的设置区域（下边讲解），4，和3差不多。。。5，是登录的地方，有些网址必须登录，我们才可以看到内容，就是这个东西！OK。就这些，那么，我们一步一步的来！首先我们给我们的任务加一个标题。。。下一步，我们就开始设置列表的采集规则（因为现在火车不知道 /forum-60-1.html 这个页面的文章列表是那些，所以我们要告诉火车！）这里有两种方式，新手嘛，我也不知道适合哪种。。。我们就用默认的吧，第一种我们点击向导添加然后出现下图。。其中有4个选项卡，如果我们只采集目标站点的一个文章列表/forum-60-1.html，那么我们选中单条网址，直接写上目标的列表网站，如下图！然后点击添加，点击完成就OK。。那么，如果我们要采集多个列表。那么我们回到看下边的图其中1，是目标网站的地址其中2，是火车的通配符（就是某个东西识别的