数据仓库与读数据挖掘数实验.doc

  1. 1、本文档共26页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据仓库与数据挖掘 学 号: 姓 名: : 二零一年十月 目录 1 实验1.1 数据仓库的构建与OLAP分析 1 1.实验题目及实验目的 1 2.实验内容 1 3.实验相关的算法原理或所设计的模型介绍 1 4.实验结果分析与总结 2 5.收获与问题分析 4 实验1.2 创建OLAP数据立方体 5 1.实验题目及实验目的 5 2.实验内容 5 3.实验相关的算法原理或所设计的模型介绍 5 4.实验结果分析与总结 5 5.收获与问题分析 6 实验1.3 通过OLAP进行数据分析 7 1.实验题目及实验目的 7 2.实验内容 7 3.实验相关的算法原理或所设计的模型介绍 7 4.实验结果分析与总结 7 5.收获与问题分析 9 实验1.4/1.5 “Frequent-Flyer flight segment“信息进行数据仓储化管理1.实验题目及实验目的 10 1.实验题目及实验目的 题目:“Frequent-Flyer flight segment”信息进行数据仓储化管理. 10 2.实验内容 10 3.实验相关的算法原理或所设计的模型介绍 所建立的数据库模型为雪花模型,一个事实表对应多个飞机事件,一个飞机事件对面3个机场表:起始机场、中转机场、终点机场。雪花模型中还有时间表、顾客模型等。如图1-13: 11 4.实验结果分析与总结 11 5.收获与问题分析 12 实验2.1 Apriori关联规则算法应用实例 13 1.实验题目及实验目的 13 2.实验内容 13 3.实验相关的算法原理或所设计的模型介绍 13 4.实验结果分析与总结 14 5.收获与问题分析 15 实验2.2 KMeans聚类算法应用实例 16 1.实验题目及实验目的 16 2.实验内容 16 3.实验相关的算法原理或所设计的模型介绍 16 4.实验结果分析与总结 17 5.收获与问题分析 17 实验2.3 KNN分类算法应用实例 18 1.实验题目及实验目的 18 2.实验内容 18 3.实验相关的算法原理或所设计的模型介绍 18 4.实验结果分析与总结 18 5.收获与问题分析 19 2.4 在SQL Server2008上完成上述的数据挖掘实验 20 1实验目的 20 2实验内容 20 3实验相关的算法原理或所涉及的模型介绍 20 4实验结果与总结 20 实验1 数据仓库的构建与OLAP分析 1.实验题目及实验目的 2.实验内容 实验相关的算法原理或所设计的模型介绍 ETL是数据仓库中的非常重要的一环。它是承前启后的必要的一步。相对于关系数据库,数据仓库技术没有严格的数学理论基础,它更面向实际工程应用。所以从工程应用的角度来考虑,按着物理数据模型的要求加载数据并对数据进行一些系列处理,处理过程与经验直接相关,同时这部分的工作直接关系数据仓库中数据的质量,从而影响到联机分析处理和数据挖掘的结果的质量。SSIS是Microsoft SQL Server 2005 Integration Services的简称,是生成高性能数据集成解决方案(包括数据仓库的提取、转换和加载 (ETL) 包)的平台。Integration Services 包括用于生成和调试包的图形工具和向导;用于执行工作流函数(如 FTP 操作)、执行 SQL 语句或发送电子邮件的任务;用于提取和加载数据的数据源和目标;用于清理、聚合、合并和复制数据的转换;用于管理 Integration Services 的管理服务 Integration Services 服务;以及用于对 Integration Services 对象模型编程的应用程序编程接口(API)。4.实验结果分析与总结CustomersWithInvalidTerrritoryID.txt,然后将其保存起来。 对于区域2的数据,由于在数据录入时,有些邮编数据省略了前面的0,因此需要对邮编进行清洗操作才能导入到表中。因此,需要在数据加载到数据表之前引用“派生列”组件,写表达式将缺省的0补齐,替换掉原来的邮编数据,再加载到区域2对应的数据表中。 (1)实验调试结果如图1-1所示。我们可以看出,项目成功执行,并且可以看出数据表/数据文件的记录数目。 图1-1 运行成功的控制流图 图1-2 运行成功的数据流图 (2)实验生成的区域目标表如图1-3所示。 图1-3 五个区域的目标数据表 (3)从图1-4和图1-5,CustomersWithInvalidTerritoryID文本文件中共存放了8条错误数据。可以在第二部分红圈中可以看到,Terrritory 1 Terrritory 5的数据被筛选到了错误集中。 图1-4错误数据前一部

文档评论(0)

kkko + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档