内容网数据采集接口定义及自动处理流程.docVIP

  • 5
  • 0
  • 约4.79千字
  • 约 11页
  • 2016-02-25 发布于江苏
  • 举报

内容网数据采集接口定义及自动处理流程.doc

内容网数据采集接口定义及自动处理流程.doc

数据采集及自动处理流程 概述 本文主要描述内容网库对外定义的数据采集接口以及对于这些采集数据的自动处理流程。通过对现速网的分析,我们认为对于数据的采集主要是通过手工方式,爬虫爬取方式进行的,对于其他的采集方式,网信虽然有提及,但是我们在现在的速网后台没有发现相应的模块,希望网信相关人员通过对该文档的阅读,对于我们欠缺的采集接口做及时的补充。 对于我们下面所设计的接口,希望网信相关人员可以提供测试数据供我们测试, 采集接口定义 爬虫BT接口 待确认问题 因为在原有的速网后台中,我们没有发现该接口的设置界面,所以请相关人员就一下几个问题给与解答 1. 爬虫是否会去爬取BT的信息 2. 如果爬虫会爬取BT的信息,那么和HTTP爬取的信息是否一致? 3. Bt爬虫爬取的数据与Bt主动缓存解析的数据有什么区别 基于上述的问题,在没有获得网信相关人员答复的前提下,我们按照如下条件设计 1.爬虫会爬取BT信息 2.爬虫爬取的信息仅包含资源信息。 接口设计 调用方:爬虫系统 调用频率:当发现爬取到新的数据时实时调用或者每天定时调用 约束:确保每次发送的信息都是最新批次的数据 输入参数: contents content type=揵t? name/name infohash/infohash protocol/protocol format/format cnt_size/cnt_size dutarion/duration data_rate/data_rate quality/quality language/language url/url /content /contents 输入参数明细如下 18 FORMAT 文件格式 2 NAME 名称 用于完整性校验,判断去重 4 PROTOCOL 采集协议 5 LANGUAGE 语言( 6 CNT_SIZE 大小 7 QUALITY 质量 10 11 INFOHASH Infohash值 判断去重 12 Duration 播放时长 13 URL 资源来源 完整性校验 输出:成功或者失败。 爬虫HTTP接口 待确认问题 爬虫爬取HTTP在线资源时,资源资料信息是否同时采集? Http爬取的资源中 是否带有影片名称 ,集数? 基于上述的问题,在没有获得网信相关人员答复的前提下,我们按照如下条件设计 爬虫爬取HTTP在线资源时,资源和资料信息不是同时进行采集 接口设计 爬虫HTTP资源接口 contents content type=“http” name/name infohash/infohash protocol/protocol format/format cnt_size/cnt_size dutarion/duration data_rate/data_rate quality/quality language/language url/url /content /contents 18 FORMAT 文件格式 2 NAME 名称 用于完整性校验,判断去重 4 PROTOCOL 采集协议 5 LANGUAGE 语言( 6 CNT_SIZE 大小 7 QUALITY 质量 10 11 INFOHASH Infohash值 判断去重 12 Duration 播放时长 13 URL 资源来源 完整性校验 爬虫HTTP资料接口 documents document name/name author/author directors/directors actors/actors tv_name/tv_name tv_host/tv_host span/span playdate/playdate country/country language/language movietype/movietype content_type/co

文档评论(0)

1亿VIP精品文档

相关文档