- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
信息资源整合平台
二期开发应用解决方案
V3.0
拟 制 人______________________
审 核 人______________________
文档修改记录
版本号 拟制/修改内容 拟制/修改人 日期 3.0 拟制方案设计初稿 2015-06-15
概述
为了解决一期资源信息整合平台爬虫爬取资源准确,对在线视频资源爬取及对资源信息搜索引擎整改等问题,提出二次开发需求,满足对资源信息准确及快速。
为满足需求对如下栏目进行调整:
网站管理
爬取资源规则
资源分类规则
搜索配置管理
搜索引擎
文件类型管理
资源搜索服务(爬虫)
资源订阅管理
功能模块
网站管理
为了解决爬虫对FTP站点的爬取资源问题,系统对FTP站点管理及维护。
FTP站点类型
???
FTP站点管理
FTP站点信息管理面向管理员提供全系统范围内站点资源的管理与维护功能。站点包括以下基本信息:站点名称站点类型站点属性是否搜索(未开启搜索选项的,爬虫程序在资源搜索时将忽略该站点)站点地址(Web站点为URL、FTP站点为IP地址)站点端口站点账号账号密码站点说明站点信息管理模块具体包括以下功能点:新增站点修改站点删除站点查询站点(按照站点名称、属性、类型进行条件查询)资源信息管理面向管理员提供全系统范围内资源的管理与维护功能。资源包括以下基本信息:资源名称(文件名,含文件类型)资源类型原始地址获取时间资源大小资源说明资源路径资源信息管理模块具体包括以下功能点:查询资源(按照资源名称、类型、进行条件查询)上传资源修改资源信息删除资源
…)
爬取资源规则
为了提高爬取资源精准性,减少爬虫对垃圾资源文件处理,减少垃圾数据,提高爬虫效率和系统运行稳定性。爬取资源规则面向管理员用户,管理员可以设定一系列需要资源规则,通过定义规则来判断是否需要下载该资源文件。爬取资源规则主要功能:
添加资源规则
删除资源规则
修改资源规则
查看爬取资源规则
主要显示信息内容:
规则名称
站点
资源文件时间段(开始时间-结束时间)
文件类型
关键字
资源分类规则
资源分类规则管理面向管理员用户,管理员可以设定一系列分类规则,由爬虫搜索获取的资源将按照这些规则自动进行归类。资源分类规则包括以下功能点:新增资源分类规则修改资源分类规则删除资源分类规则每一条资源分类规则包括以下内容:规则名称关键字(与资源名称匹配)文件类型(与资源文件类型匹配)优先级(1-5级,当一个资源可以匹配多条规则时,按照优先级最高的最新一条规则进行归类处理)资源归类(从资源类型中选取)
为了解决客户对爬取具体的资源文件类型及订阅具体资源文件类型的需求,提高爬虫性能,添加文件类型管理模块,文件类型管理面向管理员用户,管理员可以设定文件类型,该文件类型提供爬虫系统需要处理文件类型。主要功能:
添加文件类型
修改文件类型
删除文件类型
查看文件类型
修改文件类型排列顺序
文件类型显示信息:
文件类型名称(视频、文档、演示文档、压缩文件、电子表格、其它)
文件扩展名(doc、txt、pdf、xls…)
资源查询及详细内容页面
为了区分资源是链接和还是具体资源文件,系统提供资源的原始地址及下载。
资源查询列表
资源查询面向所有用户,用户通过关键字、资源类别及文件类型查找需要资源。主要功能:
查询资源
下载资源
查看资源原始地址
列表显示内容:
资源名称
资源类别
文件类型
文件大小
获取时间
资源来源
资源备注
下载
资源原始地址
资源详细内容
查看具体资源信息,显示资源相关资源,同时提供下载地址及查看原始页面地址。具体功能:
查询资源
下载资源
查看资源原始地址
资源具体显示内容:
资源名称
资源类别
文件类型
文件大小
获取时间
资源来源
资源备注
下载
资源原始地址
资源订阅管理
一条订阅可以匹配对多个关键字订阅及多个文件类型,解决多次添加订阅信息问题,订阅信息的具体内容包括:资源类型关键字信息管理主要包括以下功能点:新增修改删除
文档评论(0)