数据仓库术语一览.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

....

PAGE/NUMPAGES

数据仓库术语一览

数据仓库:

数据仓库是一个支持管理决策的数据集合。数据是面向主题的、集成的、不易丢失的并且是时间变量。数据仓库是所有操作环境和外部数据源的快照集合。它并不需要非常准确,因为它必须在特定的时间根底上从操作环境中提取出来。

数据集市:

数据仓库只限于单个主题的区域,例如顾客、部门、地点等。数据集市在从数据仓库获取数据时可以依赖于数据仓库,或者当它们从操作系统中获取数据时就不依赖于数据仓库。

事实:

事实是数据仓库中的信息单元,也是多维空间中的一个单元,受分析单元的限制。事实存储于一表中〔当使用关系数据库时〕或者是多维数据库中的一个单元。每个事实包括关于事实〔销售额,销售量,本钱,毛利,毛利率等〕的根本信息,并且与维度相关。在某些情况下,当所有的必要信息都存储于维度中时,单纯的事实出现就是对于数据仓库足够的信息。我们稍后讨论有关缺无事实的情况。

维度:

维度是用来反映业务的一类属性,这类属性的集合构成一个维度。例如,某个地理维度可能包括国家、地区、省以与城市的级别。一个时间维度可能包括年、季、月、周、日的级别。

级别:

维度层次结构的一个元素。级别描述了数据的层次结构,从数据的最高〔汇总程度最大〕级别直到最低〔最详细〕级别〔如大分类-中分类-小分类-细分类〕。级别仅存在于维度。级别基于维度表中的列或维度中的成员属性。

数据清洗:

对数据仓库系统无用的或者不符合数据格式规的数据称之为脏数据。清洗的过程就是去除脏数据的过程。

数据采集:

数据仓库系统中后端处理的一局部。数据采集过程是指从业务系统中收集与数据仓库各指标有关的数据。

数据转换:

解释业务数据并修改其容,使之符合数据仓库数据格式规,并放入数据仓库的数据存储介质中。数据转换包括数据存储格式的转换以与数据表示符的转换〔如产品代码到产品名称的转换〕。

联机分析处理(OLAPOnlineAnalyticalProcessing):

OLAP是一种多维分析技术,用来满足决策用户在大量的业务数据中,从多角度探索业务活动的规律性、市场的运作趋势的分析需求,并辅助他们进展战略开展决策的制定。按照数据的存储方式分OLAP又分为ROLAP、MOLAP和HOLAP。在客户信息数据仓库CCDW的数据环境下,OLAP提供上钻、下钻、切片、旋转等在线分析机制。完成的功能包括多角度实时查询、简单的数据分析,并辅之于各种图形展示分析结果。

数据挖掘:

在数据仓库的数据中发现新信息的过程被称为数据挖掘,这些新信息不会从操作系统中获得。

切片:

一种用来在数据仓库中将一个维度中的分析空间限制为数据子集的技术。切块:一种用来在数据仓库中将多个维度中的分析空间限制为数据子集的技术。

星型模式:

是数据仓库应用程序的最正确设计模式。它的命名是因其在物理上表现为中心实体,典型容包括指标数据、辐射数据,通常是有助于浏览和聚集指标数据的维度。星形图模型得到的结果常常是查询式数据结构,能够为快速响应用户的查

询要求提供最优的数据结构。星形图还常常产生一种包含维度数据和指标数据的两层模型。

雪花模式:

指一种扩展的星形图。星形图通常生成一个两层结构,即只有维度和指标,雪花图生成了附加层。实际数据仓库系统建设过程中,通常只扩展三层:维度〔维度实体〕、指标〔指标实体〕和相关的描述数据〔类目细节实体〕超过三层的雪花图模型在数据仓库系统中应该防止。因为它们开始像更倾向于支持OLTP应用程序的规格化结构,而不是为数据仓库和OLAP应用程序而优化的非格式化结构。

粒度:

粒度将直接决定所构建仓库系统能够提供决策支持的细节级别。粒度越高表示仓库中的数据较粗,反之,较细。粒度是与具体指标相关的,具体表现在描述此指标的某些可分层次维的维值上。例如,时间维度,时间可以分成年、季、月、周、日等。

数据仓库模型中所存储的数据的粒度将对信息系统的多方面产生影响。事实表中以各种维度的什么层次作为最细粒度,将决定存储的数据能否满足信息分析的功能需求,而粒度的层次划分、以与聚合表中粒度的选择将直接影响查询的响应时间。

度量值:

在多维数据集中,度量值是一组值,这些值基于多维数据集的事实数据表中的一列,而且通常为数字。此外,度量值是所分析的多维数据集的中心值。即,度量值是最终用户浏览多维数据集时重点查看的数字数据〔如销售、毛利、本钱〕

文档评论(0)

192****3452 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档