- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
侵略者网页数据采集系统技术白皮书
侵略者WEB数据采集系统 V3.0.1
技
Copyright ? 2005-2010 All Rights Reserved 侵略者软件
目 录
目 录 2
一. 概述 3
二. 典型应用 3
1. 政府机关 3
2. 企业 4
3. 新闻媒体 4
4. 应用系统 5
三. 系统构架 5
1. 工作过程描述 5
2. 采集管理服务器 5
3. 采集服务器群组 6
四. 系统功能 9
五. 技术特点 10
六. 系统优势 11
1. 精确度高 11
2. 易用性好 12
3. 灵活性强 12
4. 实施部署容易 12
5. 采集内容全面 12
6. 抓取速度快 12
7. 性能指标 13
七. 维护管理监控 13
八. 名词解释 14
九. 系统环境要求 15
概述
面对互联网海量的信息,政府机关、企事业单位和研究机构都迫切希望获取 与自身工作相关的有价值信息,如何方便快捷地获取这些信息就变得至关重要 了。如果采用原始的手工收集方式,费时费力且毫无效率,面对越来越多的信息 资源,劳动强度和难度可想而知。因此,现代的政府和企业都迫切需要一种能够 提供高质量和高效运作的信息采集解决方案。
本系统针对不同行业用户的应用需求,以抓取互联网或者内部网信息为目的,实现在用户自定义规则下,自动从互联网中抓取指定信息。抓取的信息可存入独立数据库或通过接口发送至其他系统,用于内部使用或外网发布,实现信息及时全面的共享。
随着用户对信息获取速度的要求,很多网站开始做面向各行各业的垂直搜索引擎,垂直搜索引擎最核心的就是准确及时的获取数据源。本系统的设计目标就是为了满足这个需求。给垂直搜索引擎提供准确及时是数据采集服务。
本系统同样能够给信息类网站提供内容采集服务,以快速提高网站的信息量。
典型应用
政府机关
实时跟踪、采集与业务工作相关的信息来源。
全面满足内部工作人员对互联网信息的全局观测需求。
及时解决政务外网、政务内网的信息源问题,实现动态发布。
快速解决政府主网站对各地级子网站的信息获取需求。
全面整合信息,实现政府内部跨地区、跨部门的信息资源共享与有效沟通。
节约信息采集的人力、物力、时间,提高办公效率。
企业
实时准确地监控、追踪竞争对手动态,是企业获取竞争情报的利器。
及时获取竞争对手的公开信息以便研究同行业的发展与市场需求。
为企业决策部门和管理层提供便捷、多途径的企业战略决策工具。
大幅度地提高企业获取、利用情报的效率,节省情报信息收集、存储、挖掘的相关费用,是提高企业核心竞争力的关键。
提高企业整体分析研究能力、市场快速反应能力,建立起以知识管理为核心的“竞争情报数据仓库”,是提高企业核心竞争力的神经中枢。
新闻媒体
快速准确地自动跟踪、采集数千家网络媒体信息,扩大新闻线索,提高采集速度。
支持每天对数万条新闻进行有效抓取。监控范围的深度、广度可以自行设定。
支持对所需内容的智能提取、审核。
实现互联网信息内容采集、浏览、编辑、管理、发布的一体化。
应用系统
垂直搜索应用
网络舆情监控
竞争情报系统
行业知识库
其它需要互联网海量信息作为数据源的应用系统
系统构架
工作过程描述
采集的目的就是把对方网站上网页中的某块文字或者图片等资源下载到自己的数据库或其他的存储形式,这个过程需要做工作:下载网页,解析网页,修正结果,数据。如果数据符合自己要求,修正结果这步可省略。
工作流程图如下:
数据处理逻辑图:
系统功能
本系统提供对互联网数据进行采集的服务。
根据用户事先配置好的规则(网页下载规则,网页解析规则等),进行数据采集。
当对方网站数据进行了更新,或者添加新数据时,系统自动会进行检测,并进行采集,然后更新到自己的数据库(或者别的存储方式),这个过程不再需要人工干涉。
对需要登录的网站可以根据设定好的帐号密码进行自动登录,以便采集登录后才能获取的数据
本系统采用分布式处理,可以通过采集管理平台把采集任务发布到不同的服务器,能够进行对大量数据源网站进行高频率的并行监控采集。
对服务器群管理方便快捷,通过采集管理平台进行统一管理,监控,统计,分析。
本系统主要适合于对数据量要求大的行业垂直搜索引擎和情报分析系统的数据采集,也适合于一些对数据量要求不高的信息发布网站。
本系统采用插件方式,对采集来的数据可以进行修正。对输出方式可以通过插件自由定制。可扩展性高。
技术特点
1. 跨平台,支持当前多数操作系统,Windows / Unix / Linux。
2. 自动识别网页的编码格式,也可以人工设置编码格式。支持各国语言的网站。
3. 支持图片,软件,音乐,视频,flash等多种格式资源的下载。
4. 支持用户名与密码自动登录。
5
您可能关注的文档
最近下载
- 第一单元-观察物体(单元测试)-2025-2026学年三年级上册数学人教版.docx VIP
- 处理量6万吨日城市生活污水处理厂初步设计.docx
- 后张法预应力钢绞线理论伸长量分段汇总计算实例和应用.doc VIP
- 老年人防骗知识课件下载.pptx VIP
- 3,5-二氯-2,6-二甲基-4-羟基吡啶的生产工艺.pdf VIP
- 个人征信基础数据库系统数据接口规范第三部分数据校验规则V1.0.doc VIP
- 个人征信基础数据库系统数据接口规范第二部分:数据发布格式.doc VIP
- Unit 2 Bridging Cultures 单元整体教学设计高中英语人教版 选择性必修第二册单元整体教学设计.pdf
- 40-50之间离婚协议书.doc VIP
- 清华大学八字班数学分析1期中 于品(1).pdf VIP
文档评论(0)