2015年火车头采集4088623.docVIP

  1. 1、本文档共32页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
火车头 采集教程 首先第一个。。我们的目标站。。discuz!x1.5架构的网站。。。/forum-60-1.html 我们要把这个版块的内容以及回复都采集到我们的网站上去。。。 首先我们打开火车,新建一个站点。。。点击火车左上角上的新建按钮,选择新建站点。。。如下图 我们只需要填写站点名就可以,其余的保持默认,然后点击保存按钮! 然后。。。在这个站点下,新建一个任务。。。选中我们新建的站点,点击鼠标右键,选择第一个,从该站点新建任务。。。如下图 其中1,是任务的名字,必须填写。。。2,是整个采集任务的步骤向导,3,是文章列表的设置区域(下边讲解),4,和3差不多。。。5,是登录的地方,有些网址必须登录,我们才可以看到内容,就是这个东西! OK。就这些,那么,我们一步一步的来! 首先我们给我们的任务加一个标题。。。 下一步,我们就开始设置列表的采集规则 (因为现在火车不知道 /forum-60-1.html 这个页面的文章列表是那些,所以我们要告诉火车!) 这里有两种方式,新手嘛,我也不知道适合哪种。。。我们就用默认的吧,第一种 我们点击向导添加 然后出现下图。。 其中有4个选项卡, 如果我们只采集目标站点的一个文章列表/forum-60-1.html,那么我们选中单条网址,直接写上目标的列表网站,如下图! 然后点击添加,点击完成就OK。。 那么,如果我们要采集多个列表。那么我们回到 看下边的图 其中1,是目标网站的地址 其中2,是火车的通配符(就是某个东西识别的东西) 其中3,是间隔数已经补零(下边一一讲解) 其中4,数字变化。。。下边讲解 其中5,字母变化。。。 那么。。。看下图 图中在地址栏填写的是 /forum-60-(*).html 这个。 那么,这是什么意思呢? 我们打开 /forum-60-1.html 这个地址,然后点击下一页 发现地址变成了 /forum-60-2.html 那么我们在点击下一页,就是第三页,发现地址变成了 /forum-60-3.html 那么在点击第四页。。想必大家也知道变成什么了吧? 那么 第一页:/forum-60-1.html 第二页:/forum-60-2.html 第三页:/forum-60-3.html 翻页中,我们发现,只有1在变化。。。那么我们在火车那里就填写 /forum-60-(*).html 这个,其中1用火车的通配符(*)替换掉。。。意思就是,只有1在变化。。。 在看下边 其中数字变化,从1到5.意思就是 从地址栏 /forum-60-(*).htm获取地址 1到5,就是下边这样的。。。 /forum-60-1.html /forum-60-2.html 。。。 /forum-60-5.html 明白了么?其实很简单。。。 那么字母变化,就是 /forum-60-a.html /forum-60-b.html 。。。 /forum-60-z.html 因为我们目标地址是数字变化。。。我们继续看下边 间隔倍数,和补零。 间隔倍数1是什么意思?40又是什么意思呢? 间隔倍数1就是 /forum-60-1.html /forum-60-2.html 。。。 /forum-60-5.html 间隔倍数40就是 /forum-60-40.html /forum-60-80.html 。。。 /forum-60-200.html 明白了么? 那么我们在看补零,补零就是。。。 /forum-60-01.html /forum-60-02.html 。。。 /forum-60-05.html 就是这样。。。其实很好理解。。。 OK。。我们继续。。。 我们填写完成后,点击添加 - 完成。。如下图 到这里,我们的地址就添加完成了。。。那么下边,我们来设置区域列表。。。 我们先设置第一个。。。“文章内容页面地址必须包含。。。不得包含。。。” 我们随便点开/forum-60-1.html 这个网址中的两篇文章,看下URL。。就是文章地址。。 /thread-88312-1-1.html /thread-88373-1-1.html 发现以上两个地址。。。那么他们其中只有 /thread-88373-1-1.html 红色部分在变动。。。那么,文章内容必须包含。。。我们写 /thread-(*)-(*)-(*).html 这样就可以,那么我们点击“开始测试网址采集” 这个时候,我们点开网站前边的+号 发现,其实网址已经采集成功了。其中的并不需要填写。。。这是为什么呢?因为我们采集的页面 /forum-60-1.html 中的文章地址,就是 /thread-88373-1-1.html这样的地址,至于为什么要写成/thread-(*)-(*)-

文档评论(0)

AnDyqaz + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档