- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第18章 数据分析与挖掘 1、决策支持系统 2、数据分析和联机分析处理(OLAP) 3、数据仓库工程 4、数据挖掘 数据分析与挖掘的社会需求 数据分析与挖掘的社会需求 1、决策支持系统 数据库应用系统可广义地划分为 事务处理系统和决策支持系统 事务处理系统 用来记录有关事务的信息的系统 决策支持系统 是从事务处理系统存储的细节信息中提取出高层次的信息 2.数据分析和联机分析处理 随着数据库技术的发展和应用,数据库存储的数据量从20世纪80年代的兆(M)字节及千兆(G)字节过渡到现在的兆兆(T)字节和千兆兆(P)字节,同时,用户的查询需求也越来越复杂,涉及的已不仅是查询或操纵一张关系表中的一条或几条记录,而且要对多张表中千万条记录的数据进行数据分析和信息综合,关系数据库系统已不能全部满足这一要求。 什么是OLAP 联机分析处理(Online Analytical Processing) 是共享多维信息的、针对特定问题的联机数据访问和分析的快速软件技术。它通过对信息的多种可能的观察形式进行快速、稳定一致和交互性的存取,允许管理决策人员对数据进行深入观察。 OLAP=多维数据库?? OLTP联机事务处理 传统的关系型数据库的主要应用 侧重于日常的商务操作 专门为了实时的数据操作而设计 支持数据的快速插入和修改 提供单个纪录的查询 支持数千个并发用户 OLAP 是数据仓库的核心部心, 数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。 提供数据挖掘,发现数据间潜在的联系 从各个不同的视觉察看数据 OLAP是多维的(多维数据库有层次概念) “嘿…4月份我在北京卖掉了价值十万美元的可乐” 维度和量度 3、数据仓库 数据仓库简介 数据仓库与数据库的区别 如何建设数据仓库 数据仓库简介 数据仓库(data warehouse)是从多个源中收集一个信息仓储(或归档),在同一个位置用唯一的模式存储。 ①长时间存储 ②单独的统一的数据接口 数据仓库与数据库的区别 数据仓库是对于大量已经由OLTP形成的数据的一种分析型的数据库,用于处理商业智能、决策支持等重要的决策信息; 数据仓库是在数据库应用到一定程度之后而对历史数据的加工与分析;是处理两种不同用途的工具而已。 数据仓库的建设(1) 设计数据仓库 一个数据仓库包括了 一个中央事实表Fact table 多个维表 数据仓库的星型结构 数据仓库的建设(2) ETL:数据的提取与转换 数据仓库的建设(3) 数据仓库的建设(4) 四、数据挖掘 1、数据挖掘简介 2、数据挖掘系统的特征 3、数据挖掘技术 1、数据挖掘简介 基本知识 数据挖掘与OLAP比较 数据挖掘与KDD比较 数据挖掘的流程 数据挖掘简介 1、数据挖掘是怎样的一个过程呢? 从海量数据中,提取隐含在其中的、人们事先不知道的但又可能有用的信息和知识的过程。 2、数据挖掘特性? 数据挖掘是从数据中自动地抽取模式、关联、变化、异常和有意义的结构; 数据挖掘大部分的价值在于利用数据挖掘技术改善预测模型。 数据挖掘系统 数据挖掘与OLAP比较 (1)功能不同 数据挖掘DM的功能在于知识发现。如:数据挖掘DM中的“分类”包括:贝叶斯分类、粗糙集分类、决策树分类等,是从数据中发现知识规则 而联机分析OLAP是一种自上而下、不断深入的分析工具:用户提出问题或假设,OLAP负责从上至下深入地提取出关于该问题的详细信息,并以可视化的方式呈现给用户。 用户先入为主的局限性可能会限制问题和假设的范围,从而影响最终的结论。 (2)数据组成不同 数据挖是从混沌的、具有巨大噪声的数据中提炼知识规则; 而联机分析OLAP只是从已经规范化的、纯净的关系数据库中组织数据。 (3)知识与数据的关系不同 数据挖掘DM是从数据中发现知识KDD; 而联机分析OLAP是利用人已知的知识来有意识地组织和使用数据。 数据挖掘与KDD 知识发现(KD) 输出的是规则 数据挖掘(DM) 输出的是模型 共同点 两种方法输入的都是学习集(learning sets) 目的都是尽可能多的自动化数据挖掘过程 数据挖掘过程并不能完全自动化,只能半自动化 SQL Server 2005数据挖掘处理流程 2、数据挖掘系统的特征 数据的特征 系统的特征 知识发现系统需要一个前处理过程 数据抽取 数据清洗 数据选择 数据转换 知识发现系统是一个自动/半自动过程 知识发现系统要有很好的性能 知识的特征 知识发现系统能够发现什么知识? 计算学习理论COLT(Computationa
文档评论(0)