数据仓库建设中数据处理技术的研究.docVIP

数据仓库建设中数据处理技术的研究.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据仓库建设中数据处理技术的研究   摘要:数据仓库建设是一项巨大的工程,数据处理又是其中至关重要的一个环节。本文从数据处理过程中数据收集、数据清洗、数据转换和数据质量评估几方面说明数据处理过程中常出现的问题及其解决方法。系统已在银行业务中予以实现。   关键词:数据仓库;数据处理;数据清洗和转换   中图分类号:TP399文献标识码:B文章编号:1009-3044(2008)36-2566-02   The Technology Research on Data Processing in Data Warehouse Developing   YU Xiao-ping, LIU Li-ya, XIAO Jing   (Collage of Computer Science and Technology, Shihezi University, Shihezi 832003, China)   Abstract: Building a data warehouse is a huge project and data processing is a important step in it. The article interpret the occurred problems and its resolve methods from some aspects such as data collection、data cleaning、data transformation and data quality check in data processing. The system has been realized in bank business.   Key words: data warehouse; data processing; data cleaning and transformation   1 引言   在当今快节奏的、以信息为基础的经济社会中,企业必须整合大量不同的异构数据源来支持其战略决策,比如商业智能或企业绩效管理。总体数据管理、数据仓库和数据集市是实施这种战略的基础。建立一个企业级的数据仓库(data warehouse)是一项巨大的工程,其中数据处理又占据其中50%-70%的工作量。数据处理包含很多方面:一是从多种数据源综合数据仓库所需要的数据,保证数据的综合性、易用性、数据的质量和数据的时效性;另一方面就是如何从现有数据中衍生出所需要的指标。   数据的抽取(Extract)、转换(Transform)和加载(Load)即ETL实施是数据处理的主要手段。ETL功能改造了源系统中的相关数据,将它们变成有用的信息存储在数据仓库中,是提供数据仓库信息内容的前期工作。如果没有对源数据进行正确的抽取、清洗和用正确的格式进行整合,作为数据仓库中枢功能的查询处理,就不能进行。   2 数据仓库概述   2.1 数据仓库的基本概念   数据仓库(data warehouse)经过数十年的发展,人们对它的认识也逐步深入。数据仓库的创始人W.H.Inmon给数据仓库的定义是:数据仓库是一个面向主题的、集成的、非易失的,随时间变化的用来支持管理人员决策的数据集合。从数据仓库的功能角度来看,将其定义为:数据仓库是指企业中可查询的数据源;数据仓库是一种信息环境。根据数据仓库的应用,数据仓库可以分为:   数据仓库将分散的日常操作数据加工处理、集成、综合后,形成归纳总结数据乃至专业分析数据,从而成为历史性详细数据。   2.2 数据仓库建设中的关键问题   数据仓库的结构如图1所示。   数据仓库从多种数据源中提取数据,经过数据抽取、清洗、转换等过程加载到数据仓库系统中输出供企业中各种不同层次的人员使用:普通用户,使用查询和报表功能;高级用户,使用多维展现的在线分析功能( OLAP);专家级用户,使用数据挖掘功能做决策分析。   数据仓库中的数据源来自于多个数据库子系统。这些数据库子系统是面向不同应用建立的,彼此独立。由于各种原因如数据输入错误、不同来源数据引起的不同表示方法、数据间的不一致、数据的不完整、NULL值等导致数据仓库中的数据不可避免地在数据的名称、类型、描述、关联、取值等方面出现问题,从而扭曲其获得的信息,影响信息系统的运行效果,也为企业建立数据仓库、建立决策支持系统、应用商务智能化带来隐患。因此数据处理就成为数据仓库建设中的关键。   3 数据处理的步骤   3.1 数据获取   根据数据仓库的主题确定哪些关联数据源是分析的对象,这些数据源不仅包含企业中业务数据库系统中的数据,还包括来自企业外部的数据,比如同业其他单位的信息、监管部门的信息、统计数据等。把这些数

文档评论(0)

heroliuguan + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:8073070133000003

1亿VIP精品文档

相关文档