- 1、本文档共106页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
数据仓库、数据挖掘与商业智能BI;数据仓库DW和数据挖掘DM讲座内容简介
数据仓库和数据挖掘技术是近十年来,世界上广泛应用的信息技术之一。其主要作用是帮助企业有效地使用企业积累的大量数据;辅助管理层和决策层提高管理和决策的水平。
讲座的主要内容如下:
数据仓库概要;
数据仓库的工作原理;
联系分析处理OLAP;
数据挖掘概念、原由、发展;
数据挖掘的技术分类;
数据挖掘在电信行业的应用;
数据挖掘与知识管理;
数据挖掘国内应用存在的问题;
数据挖掘的未来发展。;前言
数据挖掘是近年来信息爆炸推动下的新兴产物,是从海量数据中提取有用知识的热门技术。
传统的信息系统,1990年代兴起的互连网技术及ERP系统在越来越廉价的存储设备配合下,产生了大量的数据。
与之相辅相成的数据分析和知识提取技术在相当长一段时间里没有大的进展,使得存储的大量原始数据没有被充分利用,转化成指导生产的“知识”,形成“数据的海洋,知识的荒漠”这样一种奇怪的现象。;数据库技术的发展;高级数据库系统(1980年代中期—现在)
-高级数据模型:扩充关系、面向对象、对象-关系
-面向应用:空间的、时间的、多媒体的、主动的、科学的、知识库
数据仓库和数据挖掘(1980年代后期—现在)
-数据仓库和OLAP技术
-数据挖掘和知识发现
基于Web的数据库系统(1990年代—现在)
-基于XML的数据库系统
-Web挖掘;数据库应用中存在的问题;海量数据要求强有力的数据分析工具;
案例“啤酒与尿布”是一个发生在Wal★Mart的关于数据挖掘的经典故事:
它告诉人们:可以利用手中大量似乎没有规律的数据,找出未知的规律;
沃尔玛有先进的卫星通讯网络—1983年开始,用巨资建立的卫星通讯网络系统使其供货系统更趋完美;
沃尔玛有完整的数据记录、存储和分析系统;
如何获得客户的销售记录?数据挖掘由什么人来实现?是否每时每刻都可以进行数据挖掘?是否每次都能挖掘出理想的结果?
我国在处理经济犯罪案件时,发现由于管理的落后以及数据分析应用技术的落后,不能及时发现问题……;什么是数据仓库DW(datawarehouse)?;数据仓库的主要特征;
(4)传统数据库使用OLTP联机事务处理方式,进行数据组织时考虑记录每一笔业务的情况;
数据仓库使用OLAP联机分析处理方式,进行数据分析处理,以主题为单位组织数据,例如:供应商、商品、顾客等。
(5)面向主题的数据组织方式要求将数据组织成主题域,各主题域之间有明确的界限(独立性),在某一主题内的数据应该包括分析处理所要求的一切数据(完备性)。
;
集成的(integrated):
(1)构造数据仓库是将多个不同的数据源,如关系数据库、一般文件和联机事务处理记录,集成在一起。
(2)将多个系统的数据进行计算和整理,保证DW的数据是关于整个系统的、一致的、全局的。
使用数据清理和数据集成技术,确保命名约定、编码结构、属性等的数据结构一致性。
保证各数据源中数据的一致性。;
不更新的(nonvolatile):
(1)访问数据仓库主要是两种方式:数据的插入和查询。修改和删除操作很少。
(2)DW的数据与操作环境下的应用数据分开存放。因此,数据仓库不需要在操作环境下事务处理、恢复和并发控制等机制。
;随时间变化的(time-variant):
(1)数据仓库记录了从过去某一时间到目前的各个阶段的信息,通过这些信息,可以表明发展历程并对未来的趋势作出定量分析和预测。
(2)DW的数据结构,隐式或显式地包含时间元素;其包含的大量综合数据也与时间相关,例如:月产量。
(3)DW随时间变化不断增加新的数据内容;去掉超过时限(例如:5-10年)的数据。
;DW概念总结:
数据仓库是一种语义上一致的数据存储体系结构;
DW是决策支持数据模型的物理实现,并存放企业战略决策所需信息;
DW通过将异种数据源中的数据集成在一起构造而成;
完成各种数据查询、信息分析报告和决策支持。;操作型数据库系统与数据仓库的区别;数据仓库的数据模型
数据仓库和OLAP通常是基于多维数据模型。
该模型将数据看作数据立方体(datacube)形式。
数据立方体由维和事实来定义;以多维的形式对数据建模和观察。
维是关于一个组织想要记录的透视或实体。
事实是面向某一主题的数据度量,它表示了多个
分析维之间的分析结果。
多维数据模型通常有星型和雪花型两种形式。;数据仓库的体系结构;1.维
维是人们观察数据的特定角度。例如:时
文档评论(0)