案例:如何规划网站数据采集(CH0).pdfVIP

  1. 1、本文档共2页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
案例:如何规划网站数据采集(CH0).pdf

案例:如何规划网站数据采集 网站数据采集软件工具包MetaSeeker 的用户手册讲 解了工具的使用方法,用户仍然可能觉 得无从下手,实际上,很多用户即使掌握了网站数据采集规则定义工具 MetaStudio 和网络爬 虫工具 DataScraper 的使用方法,在采集网站数据实践中仍然会走弯路。因此,我们准备撰 写一系列文章,由易到难,通过实践案例指导用户有效地采集网站数 据,期间还会穿插发 布一些视频演示材料。 最简单的应用场景是将网站上同类的内容批量地采集下来,例如,将某个论坛板块的所有帖 子采集下来,或者将 ebay 上的某类电子产品全部采集下来,这些目标网站数据就像一个表 格,我们只需要将其中的一条条记录采集下来即可。 然而,并不总是这么简单,例如,某个论坛网站上有很多板块,例如,数据库板块、Java 编 程板块等等,要将所有板块中的论坛帖子分别采集下来,这实际上变 成了两个层次,第一 个层次是板块,第二个层次是特定板块中的所有的帖子,实际上,这个例子还有第三个层次, 在帖子列表中点击某个帖子会进入到一个详细的由 主题帖和跟贴组成的会话页面。 每个网站都有很多层次,在这种情况下,用户操作 MetaSeeker 采集网站数据时首先要进行 规划,要制定一个路线图,告诉 MetaSeeker 中 的定题网络爬虫怎样爬行网站,定题网络爬 虫也叫聚焦网络爬虫,同综合搜索引擎的爬虫(例如,谷歌爬虫)有很大不同,定题爬虫的 爬行范围是确定的,由 MetaSeeker 用户事先规定和约束。网络爬虫就像蜘蛛,利用网页上 的超链接爬行网络,超链接将页面织成了一张网(WWW ,Web ),普通网络爬虫爬 行这张 网时有很大的自由度,而定题网络爬虫的爬行范围是受控的,由用户决定采集网站上哪些层 次的网页上的什么数据。所以,规划网站数据采集的过程就是给定 题网络爬虫规定爬行路 线的过程。网站上的层次是由网站设计者设计和实现的,规定定题网络爬虫爬行范围可以看 作是网站设计的逆向工程,所以,在采集网站数据前要正确理解目标网站的结构设计和内容 归类管理。 谨记:网站数据采集规划就是网站设计的逆向工程 下面几篇文章以采集一个手机游戏和软件网站( )上的数据为例,由 浅到深讲解规划和采集过程。 • 手机游戏网站数据采集 ,只采集其中一类手机游戏 • 采集所有类手机游戏 • 采集手机游戏频道网页上的手机游戏分类超链接

文档评论(0)

cnsg + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档