侵略者WEB数据采集系统_介绍.docVIP

  • 9
  • 0
  • 约2.79千字
  • 约 7页
  • 2016-01-08 发布于安徽
  • 举报
侵略者WEB数据采集系统 介 绍 目 录 一. 开发背景 二. 功能介绍 三. 模块组成 四. 运行部署 五. 维护管理监控 六. 软硬件要求 七. 性能分析 八. 名词解释 一. 开发背景 随着用户对信息获取速度的要求,很多公司开始做面向各行各业的垂直搜索引擎,垂直搜索引擎最核心的就是准确及时的获取数据源。 本系统的设计目标就是为了满足这个需求。给垂直搜索引擎提供准确及时是数据采集服务。 二. 功能介绍 本系统提供对互联网数据进行采集的服务。 根据用户事先配置好的规则(网页下载规则,数据块解析规则等),进行数据采集。 当对方网站数据进行了更新,或者添加新数据时,系统自动会进行检测,并进行采集,然后更新到自己的数据库(或者别的存储方式),这个过程不再需要人工干涉。 本系统采用分布式处理,可以通过采集管理平台把采集任务发布到不同的服务器,能够进行对大量数据源网站进行高频率的并行监控采集。 对服务器群管理方便快捷,通过采集管理平台进行统一管理,监控,统计,分析。 本系统主要适合于对数据量要求大的行业垂直搜索引擎和情报分析系统的数据采集,也适合于一些对数据量要求不高的信息发布网站。 本系统采用插件方式,对采集来的数据可以进行修正。对输出方式可以通过插件自由定制。可扩展性高。 三. 模块组成 1.

文档评论(0)

1亿VIP精品文档

相关文档