采集系统架构.pptxVIP

  • 9
  • 0
  • 约小于1千字
  • 约 14页
  • 2018-12-22 发布于湖北
  • 举报
数据采集系统架构; 利用现有资源大幅提高采集效率,4x是低限。 高可用,高负载 利用开源系统提高开发效率。 简单,且易部署。 减轻系统维护工作量。 最大限度提高效率,用效率掩盖一切;系统架构描述-层级;系统架构描述—流程;由于采集URL为动态变化对持久化要求并不高,所以将除初始化URL全部缓存到内存中,利用redis key来做排重。 使用开源项目redis做为URL存储,提高读取和排重效率。 尽量少存储信息URL相关信息,提高内存使用效率。 100万/GB, 32GB内存约可以缓存3200万URL,满足现有采集需求我们大概需要 128GB内存 相关资料 ;管理URLCache 实现高可用,在不同的urlCache间尽量平均分配存储和备份。 实现部分采集策略,通过MQ实现采集任务分发。 ;系统架构描述-HAProxy;消息队列 让采集任务从push的过程变成pull过程,极大简化了流程的开发难度,让采集任务负载均衡更可靠。 可选方案:ActiveMQ, RabbitMQ, ZeroMQ… 相关资料 ;爬虫: 监听MQ, 从中获取任务消息。 根据任务消息,采集相关URL(后期不仅仅是采集任务,可能有截图任务,数据处理任务,数据导出、导入任务…,当然这并不全是spider要做的事)。 策略化,我们可以根据情况定制采集策略,比如:每spider只连续采集相同域下5个url,又比如:苏宁的地址每次仅连续集3个地址,下次采集必须间隔10秒。事时策略可以让我们采集效率最大化。 ;数据存储: redis+HBASE; 可采用,主从结构实现读写分离。 ;不是美妹,是Monitor+Manager 监控和管理系统,这将是整个项目中开发工作量最大的部分,可视化编辑和管理,策略管理,服务器状态检测,spider, MQ, haproxy管理…..MM我们可以一步一步来。 服务器及spider监控,管理。 这个做为第一步。 MQ监控,管理(初期可以使用自带软件进行监控)。 系统采集情况报告(这个初期可以查库,第三步)。 服务资源情况报告(这个做为第二步)。 实时策略管理(初期通过配置文件的形式来实现) … ;系统架构描述-开发部署方案;系统架构描述-服务器架构;系统架构描述-开发模式

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档