- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
采集系统架构
数据采集系统架构; 利用现有资源大幅提高采集效率,4x是低限。
高可用,高负载
利用开源系统提高开发效率。
简单,且易部署。
减轻系统维护工作量。
最大限度提高效率,用效率掩盖一切;系统架构描述-层级;系统架构描述—流程;由于采集URL为动态变化对持久化要求并不高,所以将除初始化URL全部缓存到内存中,利用redis key来做排重。
使用开源项目redis做为URL存储,提高读取和排重效率。
尽量少存储信息URL相关信息,提高内存使用效率。
100万/GB, 32GB内存约可以缓存3200万URL,满足现有采集需求我们大概需要 128GB内存
相关资料
;管理URLCache
实现高可用,在不同的urlCache间尽量平均分配存储和备份。
实现部分采集策略,通过MQ实现采集任务分发。
;系统架构描述-HAProxy;消息队列
让采集任务从push的过程变成pull过程,极大简化了流程的开发难度,让采集任务??载均衡更可靠。
可选方案:ActiveMQ, RabbitMQ, ZeroMQ…
相关资料
;爬虫:
监听MQ, 从中获取任务消息。
根据任务消息,采集相关URL(后期不仅仅是采集任务,可能有截图任务,数据处理任务,数据导出、导入任务…,当然这并不全是spider要做的事)。
策略化,我们可以根据情况定制采集策略,比如:每spider只连续采集相同域下5个url,又比如:苏宁的地址每次仅连续集3个地址,下次采集必须间隔10秒。事时策略可以让我们采集效率最大化。
;数据存储:
redis+HBASE;
可采用,主从结构实现读写分离。
;不是美妹,是Monitor+Manager
监控和管理系统,这将是整个项目中开发工作量最大的部分,可视化编辑和管理,策略管理,服务器状态检测,spider, MQ, haproxy管理…..MM我们可以一步一步来。
服务器及spider监控,管理。 这个做为第一步。
MQ监控,管理(初期可以使用自带软件进行监控)。
系统采集情况报告(这个初期可以查库,第三步)。
服务资源情况报告(这个做为第二步)。
实时策略管理(初期通过配置文件的形式来实现)
…
;系统架构描述-开发部署方案;系统架构描述-服务器架构;系统架构描述-开发模式
您可能关注的文档
最近下载
- 探究感应电流的产生条件导学案.doc VIP
- 7的乘法口诀教学设计【省一等奖】.docx
- Hasselblad哈苏相机X2D II 100C User Manual - 简体中文用户手册说明书(中文版).pdf
- 中国计量大学803传感器技术1--2011--2020年考研初试真题.pdf VIP
- 参保单位派出证明.docx VIP
- 2025届安徽省“江南十校”高三联考英语试卷(含官方答案)原卷.pdf
- DB23_T(1621.10-1621.14)-2015:黑龙江省建设工程施工操作技术规程(三).pdf VIP
- 12YJ1工程用料做法.docx VIP
- 中考冲刺励志文案【90句】.pdf VIP
- 05175税收筹划自考课程.docx VIP
文档评论(0)