- 1、本文档共13页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据仓库设计与实现
学号 128302106
姓名 江晨婷
成绩
教师 张丹平
二O一五年四月
数据仓库建设方案设计与实现
摘要:本文以博士学位调查为基础,创建方案,设计与实现数据仓库,通过对当前各种主 流数据仓库软件在性能、价格等方面的对比,充分考虑统计业务、单位数量等实际情况,本系统决定采用SQL?Server?2005数据仓库软件来构建综合信息分析系统的数据仓库。
关键词:数据仓库;联机分析;数据挖掘;4学历教育博士学位授予信息(按主管部门统计)报表层模型
数据仓库模型设计
为满足决策分析的需要,系统需要将各种数据源来的数据围绕决策主题存储到数据仓库中,以提高数据查询、聚集的效率。数据仓库建模采用自上而下的三级建模方式,即概念建模、逻辑建模、物理建模。概念建模可采用信息打包法,逻辑建模以星型建模方法和雪花建模方法为主,物理建模以3NF和星型建模方式为主。
在数据仓库的3级数据模型中,概念模型表示现实世界的“业务信息”构成关系,用业务数据库设计中的“实体-关系”方法(E-R方法)来设计这一级的数据模型,但需要用分析主题代替传统E-R方法中的实体。在传统业务数据库设计中的逻辑模型一般采用范式规范的表及其关系,数据仓库设计中的逻辑模型也采用表来存储数据,因此也数据仓库中使用的也是关系模型,不过表与表之间不再通过3大范式的规范,而是以星形结构、雪花形结构和星座型结构等方式组成。物理模型则属于这些表的物理存储结构,比如表的索引设计等。数据仓库的设计就是在概念模型、逻辑模型和物理模型的依次转换过程中实现的。作为数据仓库的灵魂——元数据模型则自始至终伴随着数据仓库的开发、实施与使用。数据粒度和聚合模型也在数据仓库的创建中发挥着指导的作用,指导着数据仓库的具体实现。图4表达了微观数据仓库设计中各种概念之间的关系。
1.概念模型设计?
概念建模主要表达决策的主题、分析主题的角度、各个角度需要分析的属性信息,决策中层次的信息—粒度,及决策主题的评估等。?
1997年Hammergren提出的信息打包方法,要求从一个决策者的角度去将焦点集中在几个主题上,着重分析所涉及的数据多维性。信息打包方法首先需要确定分析的主题,然后围绕这个主题填入指标、维度、粒度等信息。?
1.定义关键性指标:定义分析主题的评估指标;?
2.定义维度:维度是用户访问评估信息的途径,每一个维度只表示一个主要的访问途径。?
3.定义粒度:粒度是维度中信息的详细程度。?
2.逻辑模型设计?
概念逻辑建模中将分析模型描述成一个可以实现的模式,根据这个模式可以实现存储到实际的数据存储器里。星型模型比较适合数据仓库的要求,在星型模型的基础上扩展出雪花模型。?
a、星型模型?
星型模型中使用事实、维、维属性、事实度量来描述。星型模型以事实为中心,各个维为角的星型结构,事实使用度量来评估,维中使用属性来描述维中的类别信息和描述信息。?
b、雪花模型?
雪花模型是在星型模型的基础上增加了粒度层次的描述。根据以上对星型模型中维
我们分析对象为对学位授予信息的统计分析。下面以博士学位授予信息统计作为分析主题为例,为学位信息分析系统数据仓库建立概念模型。属性的分析可知,同一种星型模型可以转化成不同的雪花模型,转的根据是属性层次的确定。不同的属性层次结构可以展现成不同的雪花图。?
c、逻辑模型中聚集操作的需求和表示?
为加快分析速度,可以将分析频繁的层次预先进行聚集操作,即将信息按照属性粒度层次来进行聚集,当需要进一步分析时再到原有的基本信息中进行搜索。?
本系统采用的是星型模型。
?六、数据预处理过程模型设计?
建立数据仓库不仅仅要考虑到联机分析(OLAP)的需要,更重要的是要考虑到数据挖掘的需要。由于数据仓库中的数据量可能以几何级数迅速增长,这就导致数据仓库中常常包含许多含有噪声、不完整、甚至不一致的数据,这严重影响数据处理的效率和效果,影响决策者的决策。目前数据挖掘的研究主要着眼于数据挖掘算法的探讨,而忽视了对数据预处理的研究。但事实上,数据挖掘中的预处理工作量常常占到整个数据挖掘工作量的60%左右,可见数据预处理工作是相当基础和重要的步骤。在本系统的构建中,采用了如下数据预处理策略。?
1.系统ETL结构设计?
本系统数据分为业务基础数据模型层、汇总数据模型层、报表层和参数层。如图所示。
图?8?ETL数据架构设计
2.将数据预处理集成在数据仓库构建过程中?
基于数据仓库的数据挖掘一般的步骤是:建立数据仓库一进行数据预处理—数据挖掘。实际上,数据预处理完全可以在构建数据仓库的同时进行。可以将数据预处理融人数据仓库的构建过程中,并将数据仓库的构建作为数据挖掘的一个重要预处理
文档评论(0)