WEB数据采集系统.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
西安网是科技发展有限公司——网站信息采集系统 WEB数据采集系统 一. 概述 面对互联网海量的信息, 政府机关、企事业单位和研究机构都迫切希望获取 与自身工作相关的有价值信息, 如何方便快捷地获取这些信息就变得至关重要 了。如果采用原始的 手工收集方式, 费时费力且毫无效率, 面对越来越多的信息资 源,劳动强度和难度可想而知 。因此,现代的政府和企业都迫切需要一种能够 提 供高质量和高效运作的信息采集解决方案。 本系统针对不同行业用户的应用需求,以抓取互联网为目的, 实现在用户自 定义规则下, 从互联网中抓取指定信息。 抓取的信息可存入数据库或直接入库发 送至指定栏目, 实现网站信息及时更新和数据量提升,从而使得搜索引擎收录量 提升,扩大企业信息宣传推广力度。 二. 典型应用 1. 政府机关 实时跟踪、采集与业务工作相关的信息来源。 全面满足内部工作人员对互联网信息的全局观测需求。 及时解决政务外网、政务内网的信息源问题,实现动态发布。 快速解决政府主网站对各地级子网站的信息获取需求。 全面整合信息,实现政府内部跨地区、跨部门的信息资源共享与有效 沟通。 节约信息采集的人力、物力、时间,提高办公效率。 第 1 页 西安网是科技发展有限公司——网站信息采集系统 2. 企业 实时准确地监控、追踪竞争对手动态,是企业获取竞争情报的利器。 及时获取竞争对手的公开信息以便研究同行业的发展与市场需求。 为企业决策部门和管理层提供便捷、多途径的企业战略决策工具。 大幅度地提高企业获取、利用情报的效率,节省情报信息收集、存 储、挖掘的相关费用,是提高企业核心竞争力的关键。 提高企业整体分析研究能力、市场快速反应能力,建立起以知识管 理为核心的 “竞争情报数据仓库”,是提高企业核心竞争力的神经中枢。 3. 新闻媒体 快速准确地自动采集数信息。 支持每天对数万条新闻进行有效抓取。 支持对所需内容的智能提取、审核。 实现互联网信息内容采集、浏览、编辑、管理、发布的一体化。 三 . 系统构架 工作过程描述 采集的目的就是把对方网站上网页中的某块文字或者图片等资源下载 到自己的站网上,这个过程需要做如下配置工作:下载网页配置,解析网页 配置,修正结果配置,数据输出配置。如果数据符合自己要求,修正结果这 步可省略。配置完毕后,把配置形成任务 ( 任务以 XML 格式描述 ) ,采集系统 第 2 页 西安网是科技发展有限公司——网站信息采集系统 按照任务的描述开始工作,最终把采集到的结果存储到网站服务器上。 工作流程图如下: 数据处理逻辑图: 第 3 页 西安网是科技发展有限公司——网站信息采集系统 四. 系统功能 根据用户事先配置好的规则 ( 网页下载规则,网页解析规则等 ) ,进行数据采集。 当对方网站数据进行了更新,或者添加新数据时,系统自动会进行检测,并进 行采集,然后更新到自己

您可能关注的文档

文档评论(0)

134547ggg + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档