- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
网络信息采集专家说明书
一、系统概述 ……………………………………………. 2
二、系统架构 ……………………………………………. 2
三、功能介绍 ……………………………………………. 4
四、性能指标 ……………………………………………. 5
五、使用环境要求 ………………………………………. 5
六、应用范围及典型案例 ………………………………. 5
1.系统概述
随着互联网的不断普及,政府部门、企业及文化传媒等各种类型的组织均将互联网作为自己的信息发布方式之一,互联网上的信息爆发式的增长起来,不光是数量上无以计数,堪称海量,信息种类也涵盖了这个多元世界的方方面面。21世纪什么最贵?——信息!21世纪得信息者得天下,信息就是第一生产力。如果提高本组织的信息获取能力,信息获取效率,已经是各个组织需要重视的头等大事。信息的利用包括信息发现,信息获取,信息加工,信息发布等几个过程。
为了满足各个组织对信息获取的需求,BOneB软件工作室历时两年的时间研发成功了一套基于互联网的信息采集软件——《网络信息采集专家》,《网络信息采集专家》是一款用于网络信息定向采集的系统。它可以从互联网上采集任意网页上的信息,并根据设定的规则从网页中分析提取出特定信息并整理存放在你指定的数据库中。本款软件适用于任何行业、任何部门,因为每一个组织都有自己所需要的信息。你可以用《网络信息采集专家》从互联网上抓取一系列的网页,只要输入起始网址和要抓取的Url地址标识,并定义元数据在网页中大概存放的位置,其余的工作《网络信息采集专家》会帮助你自动完成。
2.系统架构
《网络信息采集专家》由综合管理系统、信息采集系统、数据更新系统和信息发布系统三个子系统构成,三个子系统通过规范的数据结构相联系,但又具有相互独立的特性,有利于分布式部署。整体系统架构图如图1所示:
图1 《网络信息采集专家》系统整体架构图
综合管理系统类似于一个“司令部”的性质,负责对整个系统进行指挥运作,并将复杂的采集规则通过简单友好的设置界面暴露给用户,用户在综合管理系统中做好采集规则设置后,就可以在这里调度采集任务的执行。
信息采集系统负责采集用户感兴趣的信息,用户通过综合管理系统设置好规则后,在采集时便由信息采集系统类读取规则并解释成采集动作,采集动作按照一定的规范来对互联网上的信息进行采集。这个系统是整个软件的核心部分,所有有价值的信息都通过该系统来获得,无效信息也是由这个系统来进行过滤,采集的智能化也是由该系统进行提供和实施。
数据更新系统负责对采集过程中所获得的信息数据进行保存和更新,他通过国际标准的数据接口访问现有的、流行的关系型数据库,并可通过扩展支持其他文件类型的数据保存。保存的数据中包括采集的信息数据,遍历的过程数据,采集日志数据等等。
信息发布系统提供了将采集数据导出发布到其他信息系统的功能,这样的目标系统可以是已知的,也可以是未知的,通过简单的对配置文件的设置,便可将发布的系统类型无效的增加。
3、功能介绍
规则定义 - 通过采集规则的定义,可以搜索并采集几乎任何类型的信息。
多任务,多线程 - 可以同时进行多个采集任务,每个任务可以使用多个线程。
自定义数据结构:可以根据客户的规则设置,自动生成数据库以及其中的表和字段。也能将自定义的数据结构自动匹配到客户现有的数据库环境中。
网站登录 - 支持网站登录,并支持网站Cookie,即使需要验证码才能登录的网站也能轻松穿过。
信息自动识别 - 提供诸如Email地址、电话号码、数字等多种预先定义好的信息类型,用户经过简单的选取即可从浩瀚的网络信息中提取特定的信息。
网页正文提取 - 能将正文从网页Htm代码中提取出来并进行适当的格式转换,能根据设置条件有选择性的过滤和保存Htm代码。达到删除广告、垃圾数据,保留有效数据的功效。
采集结果分类 - 可以根据用户定义的分类信息进行采集结果的自动分类。
采集结果加工 - 采集后的结果可以根据设置进行一定的加工处理,转换成所需要的内容。
数据保存 - 采集后自动将数据存入关系数据库中。现已经支持Access、SQL Server关系型数据库,其他类型数据库的支持可通过接口快速的实现。
二进制文件下载 - 可以将采集到的二进制文件下载到本地磁盘或者采集结果数据库中。
预留编程接口 - 定义多个事件,用户可以在事件中利用Pascal Script、C++ Script、VB Script、Java Script等脚本语言进行编程,扩充采集功能。
过滤重复内容 - 软件可根据用户设置和实际情况对重复内容和重复网址自动删除重复内容。
特殊链接处理 - 通过设
您可能关注的文档
最近下载
- 小学英语人教PEP版((2024)三年级上册:Unit 5 The colourful world B Start to read-教学课件.pptx
- 汇承HC-06蓝牙串口模块使用规格书_附件.pdf VIP
- 药学知识题库及答案.doc VIP
- 土工布及其有关产品 宽条拉伸试验.pdf VIP
- 部编版语文八年级上册《一着惊海天》同步作业试题及答案.docx VIP
- 《菜点酒水知识》教案单元二主题一.pdf VIP
- 西药学综合知识与技能-《药学综合知识与技能》模拟试卷2.docx VIP
- 2025年甘肃省白银有色集团股份有限公司技能操作人员社会招聘552人笔试模拟试题及答案解析.docx VIP
- 《菜点酒水知识》教案单元一主题四.pdf VIP
- 以“数”赋能,以“智”焕新——腾讯智慧文旅解决方案.pdf VIP
文档评论(0)