爬虫——搭架构.docVIP

  1. 1、本文档共12页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
爬虫——搭架构 ?第一篇我们做了一个简单的页面广度优先来抓取url,很显然缺点有很多,第一:数据结构都是基于内存的,第二:单线程抓取速度太慢,在实际开发中肯定不会这么做的,起码得要有序列化到硬盘的机制,对于整个爬虫架构来说,构建好爬虫队列相当重要。 ? ???先上一幅我自己构思的架构图,不是很完善,算是一个雏形吧。 一:TODO队列和Visited集合 ? ???在众多的nosql数据库中,mongodb还是很不错的,这里也就选择它了,做集群,做分片轻而易举。 二:中央处理器 ? ???群架,斗殴都是有带头的,那中央处理器就可以干这样的事情,它的任务很简单, ? ? 第一: 启动时,根据我们定义好的规则将种子页面分发到各个执行服务器。 ? ? 第二: 定时轮询”TODO——MongoDB“,将读取的新Url根据规则分发到对应的执行服务器中。 三:分发服务器 ? ? 中央处理器将url分发到了执行服务器的内存中,分发服务器可以开启10个线程依次读取队列来获取url,然后解析url, 第一:如果url是外链,直接剔除。 第二:如果url不是本机负责抓取的,就放到”TODO——MongoDB“中。 第三:如果是本机负责的,将新提取的url放入本机内存队列中。 四:代码实现 首先下载mongodb/downloads,简单起见就在一个database里面建两个collection。迫不及 待了,我要爬一个美女网站, ,申明一下,并非推广网站,看下”中央处理器“的实现。 先上一幅我自己构思的架构图,不是很完善,算是一个雏形吧。 一:TODO队列和Visited集合 在众多的nosql数据库中,mongodb还是很不错的,这里也就选择它了,做集群,做分片轻而易举。 二:中央处理器 群架,斗殴都是有带头的,那中央处理器就可以干这样的事情,它的任务很简单, 第一: 启动时,根据我们定义好的规则将种子页面分发到各个执行服务器。 第二: 定时轮询”TODO——MongoDB“,将读取的新Url根据规则分发到对应的执行服务器中。 三:分发服务器 中央处理器将url分发到了执行服务器的内存中,分发服务器可以开启10个线程依次读取队列来获取url,然后解析url, 第一:如果url是外链,直接剔除。 第二:如果url不是本机负责抓取的,就放到”TODO——MongoDB“中。 第三:如果是本机负责的,将新提取的url放入本机内存队列中。 四:代码实现 首先下载mongodb /downloads,简单起见就在一个database里面建两个collection。迫不及 待了,我要爬一个美女网站, ,申明一下,并非推广网站,看下”中央处理器“的实现。 1 namespace CrawlerCPU 2 { 3 /* 根据规格,一个服务爬取3个导航页(由 中央处理器 统一管理) 4 * 第一个服务:日韩时装,港台时装 5 * 第二个服务:,欧美时装,明星穿衣,显瘦搭配 6 * 第三个服务:少女搭配,职场搭配,裙装搭配 7 */ 8 public class Program 9 { 10 static Dictionarystring, stringdicMapping = new Dictionarystring, string(); 11 12 static void Main(string[] args) 13 { 14 //初始Url的分发 15 foreach (var key in ConfigurationManager.AppSettings) 16 { 17 var factory = new ChannelFactoryICrawlerService(new NetTcpBinding(), new EndpointAddress(key.ToString())) 18 .CreateChannel(); 19 20 varurls = ConfigurationManager.AppSettings[key.ToString()] 21

文档评论(0)

***** + 关注
实名认证
文档贡献者

本账号下所有文档分享可拿50%收益 欢迎分享

1亿VIP精品文档

相关文档