- 1、本文档共12页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
爬虫——搭架构
?第一篇我们做了一个简单的页面广度优先来抓取url,很显然缺点有很多,第一:数据结构都是基于内存的,第二:单线程抓取速度太慢,在实际开发中肯定不会这么做的,起码得要有序列化到硬盘的机制,对于整个爬虫架构来说,构建好爬虫队列相当重要。? ???先上一幅我自己构思的架构图,不是很完善,算是一个雏形吧。一:TODO队列和Visited集合? ???在众多的nosql数据库中,mongodb还是很不错的,这里也就选择它了,做集群,做分片轻而易举。二:中央处理器? ???群架,斗殴都是有带头的,那中央处理器就可以干这样的事情,它的任务很简单,? ? 第一: 启动时,根据我们定义好的规则将种子页面分发到各个执行服务器。? ? 第二: 定时轮询”TODO——MongoDB“,将读取的新Url根据规则分发到对应的执行服务器中。三:分发服务器? ? 中央处理器将url分发到了执行服务器的内存中,分发服务器可以开启10个线程依次读取队列来获取url,然后解析url,第一:如果url是外链,直接剔除。第二:如果url不是本机负责抓取的,就放到”TODO——MongoDB“中。第三:如果是本机负责的,将新提取的url放入本机内存队列中。四:代码实现首先下载mongodb/downloads,简单起见就在一个database里面建两个collection。迫不及待了,我要爬一个美女网站, ,申明一下,并非推广网站,看下”中央处理器“的实现。
先上一幅我自己构思的架构图,不是很完善,算是一个雏形吧。
一:TODO队列和Visited集合
在众多的nosql数据库中,mongodb还是很不错的,这里也就选择它了,做集群,做分片轻而易举。
二:中央处理器
群架,斗殴都是有带头的,那中央处理器就可以干这样的事情,它的任务很简单,
第一: 启动时,根据我们定义好的规则将种子页面分发到各个执行服务器。
第二: 定时轮询”TODO——MongoDB“,将读取的新Url根据规则分发到对应的执行服务器中。
三:分发服务器
中央处理器将url分发到了执行服务器的内存中,分发服务器可以开启10个线程依次读取队列来获取url,然后解析url,
第一:如果url是外链,直接剔除。
第二:如果url不是本机负责抓取的,就放到”TODO——MongoDB“中。
第三:如果是本机负责的,将新提取的url放入本机内存队列中。
四:代码实现
首先下载mongodb /downloads,简单起见就在一个database里面建两个collection。迫不及
待了,我要爬一个美女网站, ,申明一下,并非推广网站,看下”中央处理器“的实现。
1 namespace CrawlerCPU
2 {
3 /* 根据规格,一个服务爬取3个导航页(由 中央处理器 统一管理)
4 * 第一个服务:日韩时装,港台时装
5 * 第二个服务:,欧美时装,明星穿衣,显瘦搭配
6 * 第三个服务:少女搭配,职场搭配,裙装搭配
7 */
8 public class Program
9 {
10 static Dictionarystring, stringdicMapping = new Dictionarystring, string();
11
12 static void Main(string[] args)
13 {
14 //初始Url的分发
15 foreach (var key in ConfigurationManager.AppSettings)
16 {
17 var factory = new ChannelFactoryICrawlerService(new NetTcpBinding(), new EndpointAddress(key.ToString()))
18 .CreateChannel();
19
20 varurls = ConfigurationManager.AppSettings[key.ToString()]
21
您可能关注的文档
- 平常灯具光通量.doc
- 贫血能吃白萝卜炖排骨么?.doc
- 贫困地区农村文化建设存在的问题与对策.doc
- 漂亮的布艺水桶包手工制作教程.doc
- 皮具保养方法.doc
- 皮肤专业知识01.doc
- 皮肤相关知识.doc
- 皮肤问题总括.doc
- 皮肤问题反映身体好坏.doc
- 皮肤如何保养.doc
- DB36_T1089-2018_社会治理网格划分和编码规则_江西省.pdf
- 2025年文化创意产品数字化展示技术与数字版权保护报告.docx
- 2025年数据要素市场法律保障体系构建与风险防范分析报告.docx
- 2025年数据要素市场法律监管政策对个人信息保护的完善.docx
- 2025年数据要素市场隐私保护法律问题研究.docx
- 数字货币背景下的消费金融市场重构与风险控制机制分析教学研究课题报告.docx
- 2 《高校思政课实践教学与思想政治教育课程内容改革》教学研究课题报告.docx
- 基于人工智能的初中生物教学中学习过程监控与生物实验技能培养研究教学研究课题报告.docx
- 《农业产业化在乡村振兴战略中的农业产业链协同与区域经济发展》教学研究课题报告.docx
- 2025年数据要素市场法律风险管理与风险管理策略研究.docx
最近下载
- (高清版)W-S-T 442-2024 临床实验室生物安全指南.docx VIP
- 不同公司橡胶助剂名称对照表橡Chemical Cross Reference.pdf VIP
- 世界陆地地形和海底地形.ppt VIP
- 连云港社区工作者考试真题库(2024版).docx VIP
- 2011全国电子设计大赛报告终极版(智能小车).doc VIP
- 神源(SYRUNS)SY5000P变频器使用说明书用户手册.pdf VIP
- Q/GDW_12218-2022_低压交流配网不停电作业技术导则_.pdf VIP
- 欧瑞(惠丰HFinverter)F1500-G变频器说明书.pdf
- 石油化工建设工程施工安全技术标准.docx VIP
- 计算机程序设计员考试题一.pdf VIP
文档评论(0)