【商务智能-精】第5章-数据预处理技术案例.pptxVIP

【商务智能-精】第5章-数据预处理技术案例.pptx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
商务智能 ——第五章 数据预处理技术案例 1 . 数据预处理的方法 数据清洗 去掉噪声和无关数据 数据集成 将多个数据源中的数据结合起来存放在一个一致的数据存储中 数据变换 把原始数据转换成为适合数据挖掘的形式 数据归约 主要方法包括:数据立方体聚集,维归约,数据压缩,数值归约,离散化和概念分层等 2 . 数据预处理工具 Microsoft SQL Server SSIS SQL Server 集成服务(SSIS)被定位成一个能生成高性能数据集成解决方案(包括数据仓库中数据的提取、转换和加载(ETL))的平台。其集成的含义主要就是指把ETL集成在一起。SSIS通过一个统一的环境向用户提供了数据转换服务(DTS)所能提供的所有功能,并且大大减少了用户花在编写程序和脚本上的精力和时间。 3 . 集成服务(Integration Services) SSIS的基本功能包括: ◦ 合并来自异类数据源中的数据 ◦ 填充数据仓库和数据集市 ◦ 整理数据和将数据标准化 ◦ 精确和模糊的查找功能 ◦ 将商业智能置入数据转换过程 ◦ 使管理功能和数据加载自动化 4 . 案例1:数据的集成、导入 使用SSIS工具 1)新建Integration Services 项目Integration Sales,并在此项目中新建一个SSIS包Integration Sales.dtsx,在此包中进行数据的抽取,整合等操作。 2)创建数据源。 在Integraton Service项目下的数据源文件夹中添加两个新的数据源连接,一个连接AdeventurWorksLT2008,一个连接目标数据库AdeventurWorksLT_DW2008 5 . 设计SSIS包Integration Sales.dtsx。 设计包的方法是从工具箱中将需要使用的容器、任务、可执行体等工具拖拽到包的SSIS设计器窗口中,再对这些对象进行设计。 由于主要执行的是数据抽取工作,因此数据流任务是我们主要设置的任务。 数据抽取中所涉及的表主要有: 事实表FactSales, 产品信息表DimProduct, 产品类别信息表DimCategory, 订购时间表DimTime 客户信息表DimCustmer。 6 . 抽取事实表FactSales的数据流任务的过程 1)选中SSIS设计器的【控制流】标签,将工具箱中的【数据流任务】对象拖拽到SSIS设计器中,并重命名为DimCustmer 2)双击【数据流任务】 DimCustmer打开【数据流】标签,将【OLE DB源】拖至SSIS设计器上。 3)打开【OLE DB源编辑器】进行【OLE DB源】对象的设置。在上述设计中需选中数据源AdventureWorksLT2008,并选择数据访问模式为【SQL 命令】,在【SQL 命令文本】中输入进行数据抽取的SQL语句。 8 . 9 . 4)完成【OLE DB源】对象设置后,从工具箱中将【SQL Server目标】对象拖至SSIS设计器上,并选中【OLE DB源】对象,将其绿色连线拖拽至新添的【SQL Server目标】对象上。打开【SQL目标编辑器】,选中数据源AdeventurWorksLT_DW2008。 10 . 11 . 12 . 案例2:为数据挖掘算法准备数据 以AdventureWorksDW2008数据仓库为例,进行购物篮数据挖掘,数据源对象是顾客购买的商品和顾客年龄、收入状况,但这些数据散布在数据仓库不同的事实表和维表中的。如何进行? 视图vDMPrep就是为关联规则挖掘、经过预处理生成的数据表。 vDMPrep will be used as a data source by the other data mining views. Uses DW data at customer, product, day, etc. granularity and gets region, model, year, month, etc. 13 . 14 . 15 . 关联规则挖掘的数据源为: vAssocSeqOrders supports assocation and sequence clustering data mmining models. vAssocSeqLineItems 16 . CREATE VIEW [dbo].[vAssocSeqOrders] AS SELECT DISTINCT [OrderNumber] ,[CustomerKe

文档评论(0)

139****7203 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档