- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据仓库技术在科服网统计监测系统中应用
数据仓库技术在科服网统计监测系统中应用 摘要:随着科技型中小企业的发展壮大,天津市科技型中小企业服务网(下称“科服网”)认定管理系统吸引了3万余家企业,积累了上亿条数据。数据资源的日益增加,难免造成系统响应时间过长、服务效率偏低的现象。如何安全有效地管理数据并快速地统计数据以供政府部门实时监测并作出合理决策,成为科服网统计监测系统面临的一个急待解决的问题。数据仓库技术的应用为此提供了有效的理论指导,通过对统计监测系统各项统计指标和各类统计需求的研究,建立了科技型中小企业认定数据仓库。通过实验数据的对比分析验证了数据仓库技术的优越性。
关键词:统计监测;数据仓库;概念模型;逻辑模型;物理模型
中图分类号:TP393 文献标识码:A 文章编号2013)007014104
0 引言
科技型中小企业是引领和支撑高新技术产业发展的主体,加快科技型中小企业发展是我市发展工作的一项重大战略举措。科服网作为科技型中小企业的专业服务平台,可以为企业提供认定、文献、金融等服务。科服网统计监测系统是企业各项指标的直接展示平台,可以为政府部门提供数据实时监测和统计分析,有利于定量描述和准确预测,是政府进行科学决策的宝贵数据资源。然而,企业数量突飞猛涨,数据规模日趋庞大,基于业务数据库的统计监测系统对用户查询需求的响应时间过长,不能提供实时服务。为此,科服网统计监测系统引入了数据仓库技术,数据仓库的建立并不是要取代数据库,而是在一个较全面和完善的信息基础上更好地支持高层分析决策。数据仓库是将分析决策所需要的大量数据从传统的数据库中抽取出来,通过统一转换加载而成的、能够实现海量业务数据的存储、管理和多维分析。研究表明,利用它为统计监测系统开展分析与决策服务切实可行。
1 数据仓库技术概述
1.1 定义
数据仓库(Data Warehouse)最初定义为面向主题的、集成的、相对稳定的、反映历史变化的数据集合。数据仓库是决策支持系统和联机分析应用数据源的结构化数据环境,它主要研究和解决从其它数据库中获取数据信息的问题。
1.1.1 面向主题
业务数据库是面向事务处理的,而数据仓库中的数据一般是按照主题域划分。主题是对业务数据的一种抽象,是从较高层次上对信息系统中的数据进行的归纳和整理。
1.1.2 集成性
业务数据库是异构、相互独立的,无法反映信息的本质。而数据仓库中的数据是经过对数据源的抽取、清洗、转换、加载得到的,在消除冗余数据的同时对数据源进行统一的编码和必要的汇总。
1.1.3 稳定性
业务数据库存储某一时刻的数据,而数据仓库反映的是一段时期的数据内容。数据仓库中对数据的操作主要是查询,并不进行任何更新操作。一旦某个数据进入数据仓库,数据会被长期保留,当超过规定的期限才会被删除。
1.1.4 时变性
随着业务数据库的不断更新变化,数据仓库需要定期从数据源获得更新的数据,以形成分析和预测需要的历史信息。数据仓库的建设需要大量的业务数据作为积累,并将这些宝贵的历史信息经过加工、整理提供给决策分析人员。
1.2 数据获取
数据获取负责完成将数据从数据源向目标数据仓库的转化,是构建数据仓库的核心和灵魂。数据获取是对数据进行抽取、转换、装载处理,主要目标是去除冗余数据以提高数据仓库中数据的质量;将数据按主题组织以提高数据仓库的可用性;定期对业务数据库进行监视以保持仓库数据与业务数据的一致性。
1.2.1 数据抽取
数据抽取是指从数据源中抽取数据的过程。数据抽取技术分为全量抽取和增量抽取两种,全量抽取类似于数据迁移或数据复制,将数据源中的数据表全部从业务数据库中抽取出来。增量抽取是指在全量抽取完成后,抽取自源表中新增或被修改的数据。确定构建数据仓库的相关业务数据库和数据表并选择合适的抽取技术,以完成定期的数据抽取工作。
1.2.2 数据转换
数据转换是将抽取的数据转换成符合数据仓库要求的数据。从数据源中抽取的数据不一定满足数据仓库的要求,有必要对数据进行转换、清洗、拆分、汇总等处理。数据转换应最大化地参照元数据,通过自定义的转换脚本或其它计算方法解决数据格式不一致、数据输入错误、数据不完整等问题。
1.2.3 数据装载
数据装载是将数据从临时表或文件加载到数据仓库的过程。根据数据装载量的大小选择最佳的装载方式完成数据装载任务。
1.3 数据存储
1.3.1 事实表
事实表是数据仓库的中央表,描述业务内特定事件的数据。事实表存储主题的主干内容,由用户关心的度量值和相关维表的主键组成。事实表的设计以能够正确记录历史信息为准则。
1.3.2 维表
维表是用户分析数据的窗口,描述事
原创力文档


文档评论(0)