网站大量收购独家精品文档,联系QQ:2885784924

数据仓库的数据存储与处理.pptVIP

  1. 1、本文档共10页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

数据仓库与数据挖掘数据仓库与数据挖掘数据仓库与数据挖掘数据仓库与数据挖掘*数据仓库与数据挖掘*第2章数据仓库的数据存储与处理21数据仓库与数据挖掘第2章数据仓库的数据存储数据存储与数据处理是数据仓库系统实施的三个关键环节中的中心环节。数据存储结构设计和数据处理技术的研究在数据仓库理论中占有重要地位。与处理435数据仓库与数据挖掘01三层数据结构022.1数据仓库的数据结构2.1数据仓库的数据结构数据仓库与数据挖掘各个组成部分的含义:操作性数据:来源于业务系统中的数据。调和数据:存储在企业级数据仓库中的数据。导出数据:从数据仓库中导出并存储在各个数据集市中的数据。企业数据模型:企业组织所需数据的整体轮廓。元数据:有关数据的说明。数据仓库与数据挖掘1状态数据与事件数据当前数据与周期数据数据仓库中的元数据22.2数据仓库的数据特征数据仓库与数据挖掘状态数据与事件数据:状态数据:描述对象状态的数据。事件数据:描述对象发生的事件的数据。数据库和数据仓库中存储的基本数据类型是状态数据。但是数据仓库中往往还存储事务或事件数据的汇总。数据仓库与数据挖掘01当前数据与周期数据:当前数据(业务系统):保留的最新数据。周期数据(数据仓库):保留的历史数据。0201数据仓库与数据挖掘02数据仓库中的元数据:数据仓库中的另一特征。数据仓库与数据挖掘ETL概念ETL过程前后数据的特征数据的ETL过程描述抽取(Capture/Extract)清洗(Scrub/Cleanse)转换(Transform)加载和索引(Load/Index)2.3数据仓库的数据ETL过程数据仓库与数据挖掘01数据ETL是用来实现异构数据源的数据集成,即完成数据的抓取/抽取(Capture/Extract)、清洗(Scrubordatacleansing)、转换(Transform)、装载与索引(LoadandIndex)等数据调和工作。02ETL的概念:数据的ETL过程描述:数据仓库与数据挖掘数据仓库与数据挖掘几点要求:数据源命名的透明度。源系统实施的业务规则的完整性和准确性。数据格式的一致性。SELECT……INTO、存储过程等方法。数据抽取:数据清洗:数据仓库与数据挖掘原因:操作型业务系统中的数据质量很差。错误拼写的名字和地址。不可能的或错误的出生日期。不匹配的地址和电话区号。缺失的数据。重复的数据。……数据仓库与数据挖掘010102在ETL过程中处于中心位置,又很麻烦。将经过清洗后的数据(源系统)转换成装载对象(目标系统)的格式。02数据转换:数据仓库与数据挖掘01将整理好的数据添加到数据仓库中。(方法?)建立索引。02数据加载和索引:数据仓库与数据挖掘ETL过程是一个数据流动的过程,中间的“T”(转换)是关键;ETL工具的选择非常重要,运用合适的工具会事半功倍;如何保证数据质量?数据质量在一定程度上决定了数据仓库的价值。数据ETL过程的实施要点:数据仓库与数据挖掘多维数据模型及其相关概念多维数据模型的物理实现多维建模技术简介一个星模式的例子2.4多维数据模型和星模式数据仓库与数据挖掘有关多维数据模型的几个概念:维、维类别、维属性、度量、粒度及分割等关于数据综合级别与粒度的确定:一般把数据分成四个级别:早期细节级、当前细节级、轻度综合级、高度综合级多维数据模型及其相关概念01数据仓库与数据挖掘有关多维数据模型的几个概念:维、维类别、维属性、度量、粒度及分割等02维类别数据仓库与数据挖掘维的类别即维的分层。可分为:简单层次复杂层次全国江苏北京上海数据仓库与数据挖掘全国复杂层次江苏苏州市01北京扬州市02上海宝应县03维属性维的一个取值。数据仓库与数据挖掘123数据仓库与数据挖掘度量即度量值,是多维数据空间中的单元格,用以存放数据,也叫事实。度量123数据仓库与数据挖掘数据粒度:是对数据仓库中的数据的综合程度高低的度量。(一般分为四个级别:高度综合级、轻度综合级、当前细节级、早期细节级)分割:将数据分散到各自的物理单元中去以便能分别处理,提高数据处理效率,数据分割后的数据单元称为分片。数据分割的标准:可按日期、地域、业务领域或按多个分割标准的组合。数据分割的目的:便于进行数据的重构、索引、重组、恢复、监控、扫描。粒度与分割数据仓库与数据挖掘01关于数据

文档评论(0)

135****7720 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档