- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据仓库的设计与实现
第1章 数据仓库的设计与实现
1.1数据仓库设计过程
数据仓库的设计一般从操作型数据开始,通常需要经过以下几个处理过程;数据仓库设计——数据抽取——数据管理。
一、数据仓库设计
根据决策主题设计数据仓库结构,一般采用星型和雪花模型设计其数据模型,在设计过程中应保证数据仓库的规范化和体系各元素的必要联系。
二、数据抽取
根据元数据库中的主题表定义、数据源定义、数据抽取规则定义对异地异构数据源进行清理、转换、对数据进行重新组织和加工,装载到数据仓库的目标库中。
三、数据管理
数据管理分为目标数据维护和元数据维护两方面。目标数据维护是根据元数据为所定义的更新频率、更新数据项等更新计划任务来刷新数据仓库,以反映数据源的变化,且对时间相关性进行处理。元数据是数据仓库的组成部分,元数据的质量决定整个数据仓库的质量。当数据源的运行环境、结构及目标数据的维护计划发生变化时,需要修改元数据。
1.2需求分析与决策主题的选取
通过对管理者和各级别的用户的数据分析需求进行调研,我们收集并整理出了用户的决策分析需求如下:
1.2.1 博士学位授予信息年度数据统计分析
一、按主管部门统计
从主管部门的角度,分析在一个时间段(年)内,各主管部门所授予的博士学位信息统计。可回答如“2008,由某部门主管的,博士学位授予一共有多少,其平均学习年限是多少,脱产学习的有多少人?”等问题。具有表格和图形两种方式来展示分析结果。典型报表格式如表 1所示。
表 SEQ 表 \* ARABIC 1 200__年度授予博士学位情况统计表(按主管部门统计)
主管部门
授予人数
其中学历博士
其中同等学历博士
其中女
平均年龄
少数民族
平均学习年限
其中一级学科授予
在学期间成果
论文
成果
专利
合计
中国科学院
财政部
…
…
表 1续 200__年度授予博士学位情况统计表(按主管部门统计)
学习方式
录取类别
就业单位类别
脱产
半脱产
业余
定向
非定向
机关
科研、设计单位
金融单位
部队
待就业
录取研究生
其他
二、按性质类别统计
三、按地区统计
四、按单位统计
五、按学科门类统计
六、按一级学科统计
按二级学科统计
1.2.2硕士学位授予信息年度数据统计分析
一、按主管部门统计
二、按性质类别统计
三、按地区统计
四、按单位统计
五、按学科门类统计
六、按一级学科统计
七、按二级学科统计
1.2.3 学士学位授予信息年度数据统计分析
一、按主管部门统计
二、按性质类别统计
三、按地区统计
四、按单位统计
五、按学科门类统计
六、按学科类别统计
七、按专业统计
1.3系统体系结构设计
通过对当前各种主流数据仓库软件在性能、价格等方面的对比,充分考虑统计业务、单位数量等实际情况,本系统决定采用SQL Server 2005数据仓库软件来构建综合信息分析系统的数据仓库。
本系统服务器端要求运行平台为Windows 2003 Server企业版,客户端要求Windows XP,浏览器为IE6.0;采用SQL Server 2005数据仓库构建方案构建数据仓库,选用Visual Studio.NET2003/SQL Server2005、Rose、Power Designer等开发工具进行系统开发。
我们设计的综合信息分析系统构架在统计综合信息平台中,其核心功能表现为通过数据转换技术,将直报数据库及其他数据源的数据库生成利于进行分析的、不同于关系数据库的数据仓库,根据不同的分析需求建立不同的专题分析数据库(多维数据库),最后对多维数据库进行利用联机分析处理、数据挖掘,其架构如图所示。
图 SEQ 图 \* ARABIC 1学位授予信息统计系统架构
在这个体系结构中,存放于系统数据库中的业务数据及外部数据源数据按照主题通过ETL工具被抽取到ETL数据库(数据准备区),数据在ETL数据库中完成预处理工作(清洗和转换),再通过ETL工具加载到数据仓库。数据进入数据仓库后按照维度和事实存放,采用MS Analysis Serviees作为OLAP服务器,Analysis Serviees可以方便的定义维度和构建OLAP立方体。用户使用前端的查询工具、报表工具、分析工具,就可以访问决策支持系统并分析浏览数据了。
由于数据预处理本身的复杂性,直接从外部数据源把数据整合到数据仓库必将导致该过程即占用许多外部操作型数据库的资源和时间,也会影响数据仓库装载数据的效率。借鉴算法研究中“以空间换时间”的思想,再结合目前硬件成本的下降,本系统中,我们在数据仓库的体系结构中添加一个专门进行数据预处理的存储区域以提高数据仓库系统整体性能。
在系统设计中,应注意以下问题:
一、理顺学位授予信息之间的关系以及业务数据是保证数据质量的关键,抽取信息的质量依赖于用户对结果
您可能关注的文档
最近下载
- 2024年第十六届全国大学生数学竞赛初赛试卷及参考答案(非数学B类).pdf VIP
- 自考本科《小学综合性学习与跨学科教学》2025年4月模拟题附答案.docx VIP
- 高校教师培训教学设计模板.docx VIP
- 《野外辨别方向》课件.ppt VIP
- 2024年第十六届全国大学生数学竞赛初赛试卷及参考答案(非数学A类).pdf VIP
- 医务人员职业防护.ppt VIP
- 第42届全国中学生物理竞赛复赛试题.docx VIP
- 万科示范区验收移交指引.docx VIP
- 唐代僧人的法律规范-政大机构典藏.PDF
- 2025-2026学年高二地理上学期第一次月考卷5【测试范围:选择性必修一,第1~2章第1节】(原卷及解析).docx VIP
文档评论(0)