第02章 数据仓库原理.pptVIP

  1. 1、本文档共67页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
2.2 数据预处理 2.2.3 数据归约 数据归约(data reduction)(也称为数据约简):用精简数据表示原始数据的方法,且归约后数据量通常比原始数据小很多,但具有接近甚至等价于原始数据表达的信息。 1、维归约(dimensionality reduction) 减少描述问题的随机变量个数或者数据集的属性个数,后者又称属性约简(attributes reduction) 。 2、数量归约(numerosity reduction) 用较少的数据表示形式替换原始数据。 3、数据压缩(data compression) 使用变换方法得到原数据的归约或“压缩”表示,图像压缩技术就是一种典型的数据压缩方法。 第 * 页 2.3 E-R模型 1、E-R模型中的基本概念 (1) 实体(Entity):客观存在并可相互区别的事物 。 (2) 属性(Attribute):描述实体的每一个特征。姓名、性别 (3) 关键字(Key):能唯一地标识实体集中每个实体的属性集合称为关键字或者码。。 (4) 联系:实体之间的联系(Relation),有3种类型。 ① 一对一 (1:1) ② 一对多(1:n) ③ 多对多(m:n) 2、E-R图的要素 (1)实体(集、型):用矩形表示,矩形框内写明实体名; (2)属性:用椭圆形表示,并用无向边将其与相应的实体连接起来。 第 * 页 2.3 E-R模型 (3)联系:用菱形表示,菱形框内写明联系名,并用无向边分别与有关的实体连接起来,同时在无向边的旁边标上联系的类型。 如果一个联系具有属性,则这些属性也要用无向边与该联系连接起来。 (4)联系的类型: (1:1),或(1:n),或(m:m) 例2-8 公民实体集与旅馆实体集及其联系的E-R图 第 * 页 2.4 数据仓库的概念模型 1、概念数据模型(Conceptual Data Model,简称概念模型):对现实管理决策中各个主题及其特征的数据抽象表示。 2、概念模型应具有特点: (1)能够比较真实地模拟或抽象表示用户的决策主题; (2)表示方法简单直观且易于用户理解; (3)与计算机系统支持的具体数据模型无关; (4)易于向数据仓库的逻辑数据模型转换; 第 * 页 2.4 数据仓库的概念模型 3、学术研究的概念模型: ①数据锥体(Data Cube)模型、 ②维事实模型DFM(Dimensional Fact Model), ③ StarER模型, ④多维模式CMS (Conceptual Multidimensional Schema) ⑤扩展ER模型和 ⑥ DWER模型等: 但还没有学术界和工程应用领域普遍接受的DW概念模型 第 * 页 2.4 数据仓库的概念模型 2.4.1 多维数据模型 定义2-1 称A (维度1,维度2,…,维度n;变量1,…,变量k) 是一个名称为A的n维数组,也称A为n维超立方体(Hypercube)或多维数据模型(多维模型)。 多维数据模型通常用于描述决策分析的一个主题框架。 1、变量 决策分析的度量指标,一个描述数据实际意义的名称。 它描述数据“是什么”,即已经发生过的事实(Fact)。 变量的取值为连续型实数,如企业“销售收入”,“管理成本” 等。 2、维度 决策分析人员观察数据(度量指标、事实)的一个特定角度称为维度,也简称维。例如,时间、地理就是两个不同的维度。 第 * 页 2.4 数据仓库的概念模型 例2-9 某市公安局拟建立警务数据仓库,需要从入住时间、旅客来源和宾馆辖区三个不同的角度,统计分析来该市城区登记入住宾馆的人次,其多维数据模型为: Hotel(入住时间,旅客来源,宾馆辖区;入住人次)。 时间维 地理维 治安维 变量 3、维的层次 决策分析人员在某个维度上观察数据(度量指标)时需要的细节程度称为维的层次,也称作维的级别。 (1)时间维的层次可以有:日、周、旬、月、季、年等不同的维层次。 (2)辖区维的层次可以公安部,某省公安厅、某市公安局、某县公安分局、某乡派出所等。 (3)地理维的层次可有全国,省份,地市,区县,乡镇等层次 第 * 页 2.4 数据仓库的概念模型 4、维成员 维成员就是一个维度在某个维层次上的一个具体取值。 2014年1月和2014年2月就是在时间维的“月”层次上的两个维成员; 2014年3月1日,2014年3月2日等都是时间维度上“日”层次上的两个维成员。 第 * 页 2.4 数据仓库的概念模型 5、多维

文档评论(0)

文档精品 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:6203200221000001

1亿VIP精品文档

相关文档