资源数据采集技术方案.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

PAGE/NUMPAGES

资源数据采集

技术方案

公司名称

2011年7月

二O一一年七月

目录

TOC\o1-3\h\z\u第1部分概述3

1.1项目概况3

1.2系统建设目标3

1.3建设的原则4

1.3.1建设原则4

1.4参考资料和标准5

第2部分系统总体框架与技术路线5

2.1系统应用架构6

2.2系统层次架构6

2.3关键技术与路线7

第3部分系统设计规7

第4部分系统详细设计7

概述

项目概况

Internet已经发展成为当今世界上最大的信息库和全球围传播知识的主要渠道,站点遍布全球的巨大信息服务网,为用户提供了一个极具价值的信息源。无论是个人的发展还是企业竞争力的提升都越来越多地依赖对网上信息资源的利用。

现在是信息时代,信息是一种重要的资源,它在人们的生活和工作中起着重要的作用。计算机和现代信息技术的迅速发展,使Internet成为人们传递信息的一个重要的桥梁。网络的不断发展,伴随着大量信息的产生,如何在海量的信息源中查找搜集所需的信息资源成为了我们今后建设在线预订类旅游网重要的组成部分。

因此,在当今高度信息化的社会里,信息的获取和信息的与时性。而Web数据采集可以通过一系列方法,依据用户兴趣,自动搜取网上特定种类的信息,去除无关数据和垃圾数据,筛选虚假数据和迟滞数据,过滤重复数据。直接将信息按照用户的要求呈现给用户。可以大大减轻用户的信息过载和信息迷失。

系统建设目标

在线预订类旅游网是在线提供机票、酒店、旅游线路等旅游商品为主,涉与食、住、行、游、购、娱等多方面的综合资讯信息、全方位的旅行信息和预订服务的。

如果用户要搜集这一类的相关数据,通常的做法是人工浏览,查看最近更新的信息。然后再将之复制粘贴到Excel文档或已有资源系统中。这种做法不仅费时费力,而且在查找的过程中可能还会遗漏,数据转移的过程中会出错。针对这种情况,在线预订类旅游网信息自动采集的系统可以实现数据采集的高效化和自动化。

建设的原则

建设原则

由于在线预订类旅游网的数据采集涉与的方面多、数据量大、采集源数据结构多样化的特点。因此,在进行项目建设的过程中,应该遵循以下原则:

可扩充性

根据实际的要求,系统可被方便地载减和灵活的扩展,使系统能适应变化和新情况。可以实现模块级别的动态扩展,而且是运行时的。所谓运行时模块的动态扩展,比如说你需要增加一些新的功能,你可以将新开发的类和文件按照Bundle进行组织,然后直接扔到运行时环境下,这些功能就可以用了。因此系统不会受技术改造而重新做出调整。

创新性

软件的投资要考虑到今后的发展,不能使用落后的产品与技术,避免投资的浪费;在系统软件选型、开发技术上,达到国外先进水平。

规性和标准性

整个设计方案从网络协议、操作系统到各个设计细节,应该全部遵循通用的国际或行业标准,符合国家有关标准规的。

低耦合性

采集系统与其它系统彼此间相对独立,直接进行数据库入库、sql同步或者基于txt/xml的数据交换,保证整体系统的低耦合性。

高效性

在底层的技术实现上采用java语言,跨平台,跨数据库,运行效率卓越。

安全、稳定、准确、与时性

采用先进的算法,采用多个子系统和工具组成一个安全、稳定、准确、与时的解决方案。方案在总体设计上遵循稳定、开放、可扩展、经济、安全的原则,从而使整个方案组成合理,技术先进,易于扩展,既能满足当前的业务数据处理要求,又能符合长期发展的需要。

易操作和易维护原则

整个系统易于维护,容易操作,易学,易用,完全通过WEB方式完成,降低维护的技术难度,也减少了人为隐患的发生。

参考资料和标准

主要参阅并依据以下一些参考资料与标准:

《中国项目管理知识体系》(C-PMBOK),2001.5

GB/T1526-1989《信息处理数据流程图、程序流程图、系统流程图、程序网络图、系统资源图的文件编制符号与约定》

GB/T8566-1995《信息技术软件生存期过程》

GB/T8567-1988《计算机软件产品开发文件编制指南》

GB/T9385-1988《计算机软件需求说明编制指南》

GB/T13702-1992《计算机件分类与代码》

GB/T11457-1995《软件工程术语》

系统总体框架与技术路线

网络信息资源采集系统是一套功能强大的网络信息资源开发利用与整合系统,可用于定制跟踪和监控互联网实时信息,建立可再利用的信息服务系统。能够从各种网络信息源,包括网页、BLOG、论坛等采集用户感兴趣的特定信息,经自动分类处理后,以多种形式提供给最终用户使用。

系统应用架构

网络蜘蛛:按照指定规则抓取数据。

数据分析:分析从网络蜘蛛来的数据,过滤掉我们不需要的信息。

数据解析:根据指定资源格式(字段)的

您可能关注的文档

文档评论(0)

137****8314 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档