- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
商务智能
——第五章 数据预处理技术案例
1
.
数据预处理的方法
数据清洗
去掉噪声和无关数据
数据集成
将多个数据源中的数据结合起来存放在一个一致的数据存储中
数据变换
把原始数据转换成为适合数据挖掘的形式
数据归约
主要方法包括:数据立方体聚集,维归约,数据压缩,数值归约,离散化和概念分层等
2
.
数据预处理工具
Microsoft SQL Server SSIS
SQL Server 集成服务(SSIS)被定位成一个能生成高性能数据集成解决方案(包括数据仓库中数据的提取、转换和加载(ETL))的平台。其集成的含义主要就是指把ETL集成在一起。SSIS通过一个统一的环境向用户提供了数据转换服务(DTS)所能提供的所有功能,并且大大减少了用户花在编写程序和脚本上的精力和时间。
3
.
集成服务(Integration Services)
SSIS的基本功能包括:
◦ 合并来自异类数据源中的数据
◦ 填充数据仓库和数据集市 ◦ 整理数据和将数据标准化
◦ 精确和模糊的查找功能
◦ 将商业智能置入数据转换过程
◦ 使管理功能和数据加载自动化
4
.
案例1:数据的集成、导入
使用SSIS工具
1)新建Integration Services 项目Integration Sales,并在此项目中新建一个SSIS包Integration Sales.dtsx,在此包中进行数据的抽取,整合等操作。
2)创建数据源。
在Integraton Service项目下的数据源文件夹中添加两个新的数据源连接,一个连接AdeventurWorksLT2008,一个连接目标数据库AdeventurWorksLT_DW2008
5
.
设计SSIS包Integration Sales.dtsx。
设计包的方法是从工具箱中将需要使用的容器、任务、可执行体等工具拖拽到包的SSIS设计器窗口中,再对这些对象进行设计。 由于主要执行的是数据抽取工作,因此数据流任务是我们主要设置的任务。
数据抽取中所涉及的表主要有:
事实表FactSales,
产品信息表DimProduct,
产品类别信息表DimCategory,
订购时间表DimTime
客户信息表DimCustmer。
6
.
抽取事实表FactSales的数据流任务的过程
1)选中SSIS设计器的【控制流】标签,将工具箱中的【数据流任务】对象拖拽到SSIS设计器中,并重命名为DimCustmer
2)双击【数据流任务】 DimCustmer打开【数据流】标签,将【OLE DB源】拖至SSIS设计器上。
3)打开【OLE DB源编辑器】进行【OLE DB源】对象的设置。在上述设计中需选中数据源AdventureWorksLT2008,并选择数据访问模式为【SQL 命令】,在【SQL 命令文本】中输入进行数据抽取的SQL语句。
8
.
9
.
4)完成【OLE DB源】对象设置后,从工具箱中将【SQL
Server目标】对象拖至SSIS设计器上,并选中【OLE DB源】对象,将其绿色连线拖拽至新添的【SQL Server目标】对象上。打开【SQL目标编辑器】,选中数据源AdeventurWorksLT_DW2008。
10
.
11
.
12
.
案例2:为数据挖掘算法准备数据
以AdventureWorksDW2008数据仓库为例,进行购物篮数据挖掘,数据源对象是顾客购买的商品和顾客年龄、收入状况,但这些数据散布在数据仓库不同的事实表和维表中的。如何进行?
视图vDMPrep就是为关联规则挖掘、经过预处理生成的数据表。
vDMPrep will be used as a data source by the other data mining views. Uses DW data at customer, product, day, etc. granularity and gets region, model, year, month, etc.
13
.
14
.
15
.
关联规则挖掘的数据源为:
vAssocSeqOrders
supports assocation and sequence clustering data mmining models.
vAssocSeqLineItems
16
.
CREATE VIEW [dbo].[vAssocSeqOrders]
AS
SELECT DISTINCT
[OrderNumber]
,[CustomerKe
原创力文档


文档评论(0)