- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据仓库构建步骤
数据仓库是面向主题的、集成的、不可更新的、随时间的变化而不断变化的(这些特点决定了数据仓库的系统设计不能采用同开发传统的OLTP数据库一样的设计方法数据仓库系统的原始需求不明确开发者最初不能确切了解到用户的明确而详细的需求用户所能提供的无非是需求的大的方向以及部分需求采用原型法来进行数据仓库的开发是比较合适的数据仓库系统开发是一个经过不断循环、反馈而使系统不断增长与完善的过程 设计步骤:
概念模型设计;
技术准备工作;
逻辑模型设计;
物理模型设计;
数据仓库生成;
数据仓库运行与维护。第概念模型设计
进行概念模型设计所要完成的工作是:
1界定系统边界
2确定主要的主题域及其内容 在原有的数据库的基础上建立了一个较为稳固的概念模型。
数据驱动:
数据仓库是对原有数据库系统中的数据进行集成和重组而形成的数据集合,数据仓库的概念模型设计,首先要对原有数据库系统加以分析理解,看在原有的数据库系统中“有什么”、“怎样组织的”和“如何分布的”等,然后再来考虑应当如何建立数据仓库系统的概念模型。一方面,通过原有的数据库的设计文档以及在数据字典中的数据库关系模式,可以对企业现有的数据库中的内容有一个完整而清晰的认识另一方面,数据仓库的概念模型是面向企业全局建立的,它为集成来自各个面向应用的数据库的数据提供了统一的概念视图。
概念模型的设计是在较高的抽象层次上的设计,因此建立概念模型时不用考虑具体技术条件的限制。
1. 界定系统的边界
数据仓库是面向决策分析的数据库,我们无法在数据仓库设计的最初就得到详细而明确的需求,但是一些基本的方向性的需求还是摆在了设计人员的面前:
要做的决策类型有哪些?
决策者感兴趣的是什么问题?
这些问题需要什么样的信息?
要得到这些信息需要包含原有数据库系统的哪些部分的数据?
划定一个当前的大致的系统边界,集中精力进行最需要的部分的开发。
2. 确定主要的主题域
要确定系统所包含的主题域,然后对每个主题域的内容进行较明确的描述,描述的内容包括:
主题域的公共码键;
主题域之间的联系;
充分代表主题的属性组。
第技术准备工作
包括:技术评估,技术环境准备。
技术评估报告、软硬件配置方案、系统(软、硬件)总体设计方案。
1. 技术评估
进行技术评估,就是确定数据仓库的各项性能指标。一般情况下,需要在这一步里确定的性能指标包括:
管理大数据量数据的能力;
进行灵活数据存取的能力;
根据数据模型重组数据的能力;
透明的数据发送和接收能力;
周期性成批装载数据的能力;
可设定完成时间的作业管理能力。
2. 技术环境准备
一旦数据仓库的体系化结构的模型大体建好后,下一步的工作就是确定我们应该怎样来装配这个体系化结构模型,主要是确定对软硬件配置的要求;我们主要考虑相关的问题:
预期在数据仓库上分析处理的数据量有多大?
如何减少或减轻竞争性存取程序的冲突?
数据仓库的数据量有多大?
进出数据仓库的数据通信量有多大等等。
根据这些考虑,我们就可以确定各项软硬件的配备要求,并且在这一步工作结束时各项技术准备工作应已就绪,可以装载数据了。这些配备有:
直接存取设备(DASD);
网络;
管理直接存取设备(DASD)的操作系统;
进出数据仓库的界面(主要是数据查询和分析工具);
管理数据仓库的软件,目前即选用数据库管理系统及有关的选件,购买的DBMS产品不能满足管理数据仓库需要的,还应考虑自己或软件集成商开发有关模块等等。
逻辑模型设计
在这一步里进行的工作主要有:
分析主题域,确定当前要装载的主题;
确定粒度层次划分;
确定数据分割策略;
关系模式定义;
记录系统定义
成果:对每个当前要装载的主题的逻辑实现进行定义,并将相关内容记录在数据仓库的元数据中,包括:
适当的粒度划分;
合理的数据分割策略;
适当的表划分;
定义合适的数据来源等。
1. 分析主题域
对概念模型设计步骤中确定的几个基本主题域进行分析并选择首先要实施的主题域选择第一个主题域所要考虑的是它要足够大,以便使得该主题域能建设成为一个可应用的系统;它还要足够小,以便于开发和较快地实施。如果所选择的主题域很大并且很复杂,我们甚至可以针对它的一个有意义的子集来进行开发。在每一次的反馈过程中,都要进行主题域的分析。
2. 粒度层次划分
数据仓库逻辑设计中要解决的一个重要问题是决定数据仓库的粒度划分层次,粒度层次划分适当与否直接影响到数据仓库中的数据量和所适合的查询类型。确定数据仓库的粒度划分,可以使用在粒度划分一节中介绍的方法,通过估算数据行数和所需的DASD
您可能关注的文档
最近下载
- 《机器视觉及其应用技术》课后答案.docx VIP
- 宗教中国化的历史演进与当代实践.pptx VIP
- 木犀草素、荭草苷和异荭草苷UGT代谢机理和BCRP外排转运蛋白调控其代谢机制得研究.pdf VIP
- 血液透析患者治疗中突发呼吸心跳骤停的应急预2025最新学习.docx VIP
- 《白桦》精品教案.docx VIP
- 苏教版小学五年级数学下册全册试卷提升专题训练(含答案).pdf VIP
- 施工质量及保障措施.doc VIP
- 《GB/T 6829-2024剩余电流动作保护电器的一般安全要求》.pdf
- 小学语文教学经验交流ppt课件.pptx VIP
- [钢结构施工设计]某钢排架结构厂房施工组织设计方案.doc VIP
文档评论(0)