- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据仓库与数据挖掘实验一(数据仓库构建).doc
一、实验内容和目的
目的:
1.理解数据库与数据仓库之间的区别与联系;
2.掌握典型的关系型数据库及其数据仓库系统的工作原理以及应用方法;
3.掌握数据仓库建立的基本方法及其相关工具的使用。
内容:
以SQL Server为系统平台,设计、建立数据库,并以此为基础创建数据仓库。
二、所用仪器、材料(设备名称、型号、规格等)
操作系统平台:Windows 7
数据库平台:SQL Server 2008 SP2
三、实验原理
数据仓库是在原有关系型数据库基础上发展形成的,但不同于数据库系统的组织结构形式,它从原有的业务数据库中获得的数据形成当前基本数据层,经过综合后形成轻度综合数据层,轻度综合数据再经过综合后形成高度综合数据层。数据仓库结构包括当前基本数据(current detail data)、历史基本数据(older detail data)、轻度综合数据(lightly summarized data)、高度综合数据(highly summarized data)和元数据(meta data)。
数据仓库系统由数据仓库、仓库管理和分析工具3部分组成,结构形式如下图所示:
数据仓库的逻辑数据模型是多维结构的数据视图,也称多维数据模型。对于逻辑数据模型,可以使用不同的存储机制和表示模式来实现多维数据模型。目前使用的多维数据模型主要有星型模型、雪花模型、星网模型、第三范式等。
ETL过程在开发数据仓库时,占去70%的工作量。ETL过程的主要步骤概括为:
决定数据仓库中需要的所有的目标数据;
决定所有的数据源,包括内部和外部的数据源;
准备从源数据到目标数据的数据映射关系;
建立全面的数据抽取规则;
决定数据转换和清洗规则;
为综合表制定计划;
组织数据缓冲区域和检测工具;
为所有的数据装载编写规程;
维度表的抽取、转换和装载;
事实表的抽取、转换和装载。
四、实验方法、步骤
要求:利用实验室和指导教师提供的实验软件,认真完成规定的实验项目,真实地记录实验中遇到的各种问题和解决的方法与过程,并绘出模拟实验案例的数据仓库模型。实验完成后,应根据实验情况写出实验报告。
五、实验过程原始记录(数据、图表、计算等)
本次实验使用Microsoft SQL Server的示例数据库Adventure Works,用其用户订单模型相关数据建立数据仓库。AdventureWorks由来Adventure Works Cycles,AdventureWorks 示例数据库所基于的虚构公司,是一家大型跨国生产公司。公司生产金属和复合材料的自行车,产品远销北美、欧洲和亚洲市场。公司总部设在华盛顿州的伯瑟尔市,拥有 290 名雇员,而且拥有多个活跃在世界各地的地区性销售团队。 数据类型 长度 精度 是否为空 说明 ONLINEORDERFLAG int 4 10 是 id DSC varchar 20 0 是 含义 DIM_SALEPERSON:销售人员维表
列名 数据类型 长度 精度 是否为空 说明 SALESPERSONID int 4 10 是 销售人员ID DSC varchar 20 0 是 销售人员名称 SALETERRITORY_DSC varchar 50 0 是 所属区域 DIM_SHIPMETHOD:发货方式维表
列名 数据类型 长度 精度 是否为空 说明 SHIPMETHODID int 4 10 是 发货方法ID DSC varchar 20 0 是 发货方法 DIM_DATE:订单日期维表
列名 数据类型 长度 精度 是否为空 说明 TIME_CD varchar 8 0 是 日期 TIME_MONTH varchar 6 0 是 年月 TIME_YEAR varchar 6 0 是 年 TINE_QUAUTER varchar 8 0 是 季度 TIME_WEEK varchar 6 0 是 星期 TIME_XUN varchar 4 0 是 旬 DIM_CUSTOMER:客户维表
列名 数据类型 长度 精度 是否为空 说明 CUSTOMERID int 4 10 是 客户ID CUSTOMER_NAME varchar 100 0 是 客户名 CUSTOMERTYPE varchar 20 0 是 客户类型 AGE int 4 10 是 年龄 SEX varchar 2 0 是 性别 MaritalStatus varchar 10 0 是 婚姻状况 YearlyIncome varchar 50 0 是 年收入 Education varchar 50 0 是 教育程度 Occupation varchar 50 0 是 职称 NumberCarsOwned in
您可能关注的文档
- 志丹县城市更新地研究报告.doc
- 快速地地分析仪和煤质工业地地分析仪价格.docx
- 快速煤质监测仪和煤质地地分析仪价格.docx
- 忻州市“十三五”规划地研究报告.doc
- 忻州市产业园区规划及招商引资报告.doc
- 怀来县“十三五”规划地研究报告.doc
- 怎样做一个有道德人Microsoft Word 文档.doc
- 怎样进行被动句教学.doc
- 怒江傈僳族自治州城市更新地研究报告.doc
- 思未来-创势翔地地分析报告.doc
- 全文可编辑内容-Brand KPIs for grocery stores Morrisons in the United Kingdom-外文版培训课件(2025.9).pptx
- 全文可编辑内容-Brand KPIs for grocery stores Nilgiris in India-外文版培训课件(2025.9).pptx
- 全文可编辑内容-Brand KPIs for grocery stores Penny in Germany-外文版培训课件(2025.9).pptx
- 全文可编辑内容-Brand KPIs for grocery stores Publix in the United States-外文版培训课件(2025.9).pptx
- 中国企业出海竞争力指数报告(2025).docx
- 2026年媒介趋势报告:算法时代的人性真相.docx
- 2025年宠物行业电商趋势解析报告.pptx
- “冻”感新生—冬季运动两极分化趋势与品牌破局点.pptx
- “冻”感新生—冬季运动两极分化趋势与品牌破局点.docx
- 全文可编辑内容-Brand KPIs for grocery stores Lidl in the United States-外文版培训课件(2025.9).pptx
原创力文档


文档评论(0)