资源数据采集技术方案样本.docVIP

  1. 1、本文档共19页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

资源数据采集

技术方案

公司名称

7月

二O一一年七月

目录

TOC\o1-3\h\z\u第1某些概述 3

1.1项目概况 3

1.2系统建设目的 3

1.3建设原则 4

1.3.1建设原则 4

1.4参照资料和原则 5

第2某些系统总体框架与技术路线 5

2.1系统应用架构 6

2.2系统层次架构 6

2.3核心技术与路线 7

第3某些系统设计规范 7

第4某些系统详细设计 7

概述

项目概况

Internet已经发展成为当今世界上最大信息库和全球范畴内传播知识重要渠道,站点遍及全球巨大信息服务网,为顾客提供了一种极具价值信息源。无论是个人发展还是公司竞争力提高都越来越多地依赖对网上信息资源运用。

当前是信息时代,信息是一种重要资源,它在人们生活和工作中起着重要作用。计算机和当代信息技术迅速发展,使Internet成为人们传递信息一种重要桥梁。网络不断发展,随着着大量信息产生,如何在海量信息源中查找收集所需信息资源成为了咱们此后建设在线预订类旅游网重要构成某些。

因而,在当今高度信息化社会里,信息获取和信息及时性。而Web数据采集可以通过一系列办法,根据顾客兴趣,自动搜取网上特定种类信息,去除无关数据和垃圾数据,筛选虚假数据和迟滞数据,过滤重复数据。直接将信息按照顾客规定呈现给顾客。可以大大减轻顾客信息过载和信息迷失。

系统建设目的

在线预订类旅游网是在线提供机票、酒店、旅游线路等旅游商品为主,涉及食、住、行、游、购、娱等多方面综合资讯信息、全方位旅行信息和预订服务网站。

如果顾客要收集这一类网站有关数据,普通做法是人工浏览网站,查看近来更新信息。然后再将之复制粘贴到Excel文档或已有资源系统中。这种做法不但费时费力,并且在查找过程中也许还会漏掉,数据转移过程中会出错。针对这种状况,在线预订类旅游网信息自动采集系统可以实现数据采集高效化和自动化。

建设原则

建设原则

由于在线预订类旅游网数据采集涉及方面多、数据量大、采集源数据构造多样化特点。因而,在进行项目建设过程中,应当遵循如下原则:

可扩充性

依照实际规定,系统可被以便地载减和灵活扩展,使系统能适应变化和新状况。可以实现模块级别动态扩展,并且是运营时。所谓运营时模块动态扩展,例如说你需要增长某些新功能,你可以将新开发类和文献按照Bundle进行组织,然后直接扔到运营时环境下,这些功能就可以用了。因而系统不会受技术改造而重新做出调节。

创新性

软件投资要考虑到此后发展,不能使用落后产品与技术,避免投资挥霍;在系统软件选型、开发技术上,达到国内外先进水平。

规范性和原则性

整个设计方案从网络合同、操作系统到各个设计细节,应当所有遵循通用国际或行业原则,符合国家关于原则规范。

低耦合性

采集系统与其他系统彼此间相对独立,直接进行数据库入库、sql同步或者基于txt/xml数据互换,保证整体系统低耦合性。

高效性

在底层技术实现上采用java语言,跨平台,跨数据库,运营效率卓越。

安全、稳定、精确、及时性

采用先进算法,采用各种子系统和工具构成一种安全、稳定、精确、及时解决方案。方案在总体设计上遵循稳定、开放、可扩展、经济、安全原则,从而使整个方案构成合理,技术先进,易于扩展,既能满足当前业务数据解决规定,又能符合长期发展需要。

易操作和易维护原则

整个系统易于维护,容易操作,易学,易用,完全通过WEB方式完毕,减少维护技术难度,也减少了人为隐患发生。

参照资料和原则

重要参阅并根据如下某些参照资料及原则:

《中华人民共和国项目管理知识体系》(C-PMBOK),.5

GB/T1526-1989《信息解决数据流程图、程序流程图、系统流程图、程序网络图、系统资源图文献编制符号及商定》

GB/T8566-1995《信息技术软件生存期过程》

GB/T8567-1988《计算机软件产品开发文献编制指南》

GB/T9385-1988《计算机软件需求阐明编制指南》

GB/T13702-1992《计算机件分类与代码》

GB/T11457-1995《软件工程术语》

系统总体框架与技术路线

网络信息资源采集系统是一套功能强大网络信息资源开发运用与整合系统,可用于定制跟踪和监控互联网实时信息,建立可再运用信息服务系统。可以从各种网络信息源,涉及网页、BLOG、论坛等采集顾客感兴趣特定信息,经自动分类解决后,以各种形式提供应最后顾客使用。

系统应用架构

网络蜘蛛:按照指定规则抓取网站数据。

数据分析:分析从网络蜘蛛来数据,过滤掉咱们不需要信息。

数据解析:依照指定资源格式(字段)定义,进行数据库字段级别解析。

分组分析:依照不同网络资源类型进行分

文档评论(0)

浅唱愁淡 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档