2014数据仓库设计文档模板.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据仓库设计与实现 学号 128302106 姓名 江晨婷 成绩 教师 张丹平 二O一五年四月 数据仓库建设方案设计与实现 摘要:本文以博士学位调查为基础,创建方案,设计与实现数据仓库,通过对当前各种主 流数据仓库软件在性能、价格等方面的对比,充分考虑统计业务、单位数量等实际情况,本系统决定采用SQL?Server?2005数据仓库软件来构建综合信息分析系统的数据仓库。 关键词:数据仓库;联机分析;数据挖掘;博士学位 概述 数据仓库的设计一般从操作型数据开始,通常需要经过以下几个处理过程;数据仓库设计——数据抽取——数据管理。 1.数据仓库设计 根据决策主题设计数据仓库结构,一般采用星型和雪花模型设计其数据模型,在设计过程中应保证数据仓库的规范化和体系各元素的必要联系。 2.数据抽取 根据元数据库中的主题表定义、数据源定义、数据抽取规则定义对异地异构数据源进行清理、转换、对数据进行重新组织和加工,装载到数据仓库的目标库中。 3.数据管理 数据管理分为目标数据维护和元数据维护两方面。目标数据维护是根据元数据为所定义的更新频率、更新数据项等更新计划任务来刷新数据仓库,以反映数据源的变化,且对时间相关性进行处理。元数据是数据仓库的组成部分,元数据的质量决定整个数据仓库的质量。当数据源的运行环境、结构及目标数据的维护计划发生变化时,需要修改元数据。 二、博士学位授予信息年度数据统计分析 1.按主管部门统计 从主管部门的角度,分析在一个时间段(年)内,各主管部门所授予的博士学位信息统计。可回答如“2008,由某部门主管的,博士学位授予一共有多少,其平均学习年限是多少,脱产学习的有多少人?”等问题。具有表格和图形两种方式来展示分析结果。典型报表格式如表1所示 三、系统体系结构设计 通过对当前各种主流数据仓库软件在性能、价格等方面的对比,充分考虑统计业务、单位数量等实际情况,本系统决定采用SQL?Server?2005数据仓库软件来构建综合信息分析系统的数据仓库。 本系统服务器端要求运行平台为Windows?2003?Server企业版,客户端要求Windows?XP,浏览器为IE6.0;采用SQL?Server?2005数据仓库构建方案构建数据仓库,选用Visual?Studio.NET2003/SQL?Server2005、Rose、Power?Designer等开发工具进行系统开发。 我们设计的综合信息分析系统构架在统计综合信息平台中,其核心功能表现为通过数据转换技术,将直报数据库及其他数据源的数据库生成利于进行分析的、不同于关系数据库的数据仓库,根据不同的分析需求建立不同的专题分析数据库(多维数据库),最后对多维数据库进行利用联机分析处理、数据挖掘,其架构如图所示。 在这个体系结构中,存放于系统数据库中的业务数据及外部数据源数据按照主题通过ETL工具被抽取到ETL数据库(数据准备区),数据在ETL数据库中完成预处理工作(清洗和转换),再通过ETL工具加载到数据仓库。数据进入数据仓库后按照维度和事实存放,采用MS?Analysis?Serviees作为OLAP服务器,Analysis?Serviees可以方便的定义维度和构建OLAP立方体。用户使用前端的查询工具、报表工具、分析工具,就可以访问决策支持系统并分析浏览数据了。 由于数据预处理本身的复杂性,直接从外部数据源把数据整合到数据仓库必将导致该过程即占用许多外部操作型数据库的资源和时间,也会影响数据仓库装载数据的效率。借鉴算法研究中“以空间换时间”的思想,再结合目前硬件成本的下降,本系统中,我们在数据仓库的体系结构中添加一个专门进行数据预处理的存储区域以提高数据仓库系统整体性能。 系统数据逻辑结构设计 1.基础层模型设计 基础层数据用于存放从学历教育博士学位、同等学力人员申请博士学位、博士专业学位、学历教育硕士学位、同等学力人员申请硕士学位、硕士专业学位、普通高等教育本科毕业生学士学位、成人高等教育本科毕业生学士学位、来华留学本科毕业生学士学位、学士专业学位等数据源ETL过来的数据,这些业务数据将进行整合、组织、重构和存放。根据学位银行授予统计系统需求,基础层模型包含博士学位信息主题域、硕士学位信息主题域、学士学位信息主题域。 博士学位授予信息是指主题域存放所授予的博士学位信息,分为学历教育博士学位、同等学力人员申请博士学位、博士专业学位。主要的信息有:个人基本信息、学科信息、学位信息、学位论文信息、前置学位信息、获学位后去向信息等。 硕士学位授予信息是指主题域存放所授予的硕士学

文档评论(0)

sGttUdDfze + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档