内容网数据采集口定义及自动处理流程.docVIP

  • 6
  • 0
  • 约1.21万字
  • 约 11页
  • 2017-10-03 发布于贵州
  • 举报

内容网数据采集口定义及自动处理流程.doc

内容网数据采集口定义及自动处理流程

数据采集及自动处理流程 概述 本文主要描述内容网库对外定义的数据采集接口以及对于这些采集数据的自动处理流程。通过对现速网的分析,我们认为对于数据的采集主要是通过手工方式,爬虫爬取方式进行的,对于其他的采集方式,网信虽然有提及,但是我们在现在的速网后台没有发现相应的模块,希望网信相关人员通过对该文档的阅读,对于我们欠缺的采集接口做及时的补充。 对于我们下面所设计的接口,希望网信相关人员可以提供测试数据供我们测试, 采集接口定义 爬虫BT接口 待确认问题 因为在原有的速网后台中,我们没有发现该接口的设置界面,所以请相关人员就一下几个问题给与解答 1. 爬虫是否会去爬取BT的信息 2. 如果爬虫会爬取BT的信息,那么和HTTP爬取的信息是否一致? 3. Bt爬虫爬取的数据与Bt主动缓存解析的数据有什么区别 基于上述的问题,在没有获得网信相关人员答复的前提下,我们按照如下条件设计 1.爬虫会爬取BT信息 2.爬虫爬取的信息仅包含资源信息。 接口设计 调用方:爬虫系统 调用频率:当发现爬取到新的数据时实时调用或者每天定时调用 约束:确保每次发送的信息都是最新批次的数据 输入参数: contents content type=“bt” name/name infohash/infohash protocol/protocol

文档评论(0)

1亿VIP精品文档

相关文档