数据仓库构建需要避免的常见疏误.DOCVIP

下载本文档

1
0
约5.17千字
约 10页
2017-09-10 发布于天津
举报
版权申诉

数据仓库构建需要避免的常见疏误.DOC

1、本文档共10页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

数据仓库构建需要避免的常见疏误

《The Data Warehouse Toolkit, 2rd》读书笔记数据仓库受业务驱动的最终目标数据仓库必须使组织机构的信息变得容易存取数据仓库必须一致地展示组织机构的信息数据仓库必须具有广泛的适应性和便于修改数据仓库必须发挥安全堡垒作用以保护信息资产数据仓库必须在推动有效决策方面承担最基本的角色数据仓库被业务群体所接受才能认定是成功的数据仓库体系的主要构件操作型源系统，数据聚集，数据展示，数据存储工具操作型源系统：外部的操作型数据库数据聚集：数据存储和ETL（extract-transformation-load）数据展示：数据组织、存储，便于其他应用直接查询数据存储工具：存储、读取数据的工具事实表和维度表术语元数据：描述数据的数据，也就是数据属性。例如下图中，“出版者”、“出版日期”是元数据项目，“中信出版社”、“2011”是元数据内容。事实表：包含数字数据（事实），多个索引（维度表的主键）。例如下图中，“Product Key”、“Store Key”是索引，“Quantity Sold”、“Dollar Sales Amount”是数字数据。维度表：包含主键（事实表的索引），详细信息。例如下图中，“Product Key”是主键，“Weight”、“Product Description”等是商品的详细信息。粒度：数据单位中保存数据的细化或综合程度的级别。细化程度越高，粒度级就越小；相反，细化程度越低，粒度级就越大。连接事实表和维度表理解了事实和维度表之后，现在就考虑将两个组块一起融合到维度模型中去的问题。如下图所示，有数字型度量值组成的事实表连接到一组填满描述属性的维度表上。这个星型特征结构通常被叫做星型连接方案。该术语可以追溯到最早的关系数据库时期。关于其中用到的维度方案，应该注意的第一件事就是其简明性与对称性。很显然，业务用户会因为数据容易理解和浏览而从简明性方面受益。上图设计方案的魅力就在于它能够充分地被业务人员所认可。在针对几百个相关实例所做的自由评测活动中，用户们一致认为维度模型正是他们所要的东西。特别是，表格数量的减少和富有意义的业务描述符号的使用，更进一步减少了出现误解的可能性。如果有一张已经存在的规范化ER图，将它转换为一组维度模型的第一步是，将ER图分成一些分散的业务处理过程，然后分别单独建模。第二步是选出ER图中那些含有数字型与可加性非关键字事实的多对多关系，并将它们标记为事实表。最后一步是，将剩下的所有表复合成具有直接连接到事实表的单连关键字的平面表，这些表成为维度表。有关维度建模的讹传神话1 维度模型与数据中心都只是应用于概要性数据方面的神话2 维度模型与数据中心是针对部门而不是针对企业的解决方案神话3 维度模型与数据中心是不可升级的神话4 维度模型与数据中心仅当可预见的使用模式时才适合神话5 维度模型与数据中心是不能集成的，从而只能形成直通的解决方案数据仓库构建需要避免的常见疏误疏误10 过多地将心思放在技术和数据上了，而不关注业务的要求和目标疏误9 未能实现或者再现像数据仓库业务主管所具备的看起来有影响、易访问而又合乎情理的管理功能梦想而耿耿于怀疏误8 扭住指定一个庞大的多年工程计划不放，而不是去追求一个更易处理的可能也是更急迫的可以进行迭代开发的方案疏误7 将精力全部投入到构造规范化数据结构中去了，而在建造一个基于维度模型的可行的展示环节时，却已经用光了给定的投入疏误6 把注意力放在后台的作业性能和容易开发上，而不是放在前台的查询性能与容易使用疏误5 把展示环节中假定为可查询的数据做得过于复杂。喜欢一个显得更为复杂的展示的数据库设计人员必定要花费一年的时间向业务用户提供（使用）支持，所以应该去建立一个在突出简明性更为人们所欣赏的解决方案。疏误4 在孤立应用的基础上建立维度模型，而没有考虑到采用共享的一致的维度将这些模型捆绑在一起的数据体系结构疏误3 仅仅将总结性数据加入到展示环节的维度中疏误2 把业务、业务需求与分析内容以及基本数据与支持技术等都看成是静态的疏误1 忽视了数据仓库的成功直接系于用户的接受程度这样的认识。设计维度模型的四步过程选取要建模的业务处理过程定义业务处理的粒度选定用于每个事实表行的维度确定用于形成每个事实表行的数字型事实以零售为例：第一步：选取业务处理 POS零售业务，什么促销条件下的什么日子里，在什么商店正在销售什么样的产品。第二步：定义粒度通过访问POS事务信息，粒度最好是原子性的，以便能够得出一个关于商场销售非常详细的概况。例如，想弄清星期一相对于星期日在销售上的不同情况，是否值得为谷物一类的物品准备那么多不同大小的商标，想了解有多少购物者对优惠50%的洗发