- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据分析与数据挖掘PPT
数据仓库与数据挖掘简介
数据仓库基本原理与应用
数据挖掘基本原理与应用;一、数据仓库与数据挖掘概述;(一) 数据仓库的兴起;1 从数据库到数据仓库;(1)数据库:用于事务处理;2 从OLTP到OLAP;(1) 联机事物处理(OLTP);OLTP的特点在于事务处理量大,但事务处理内容比较简单且重复率高。
OLTP处理的数据是高度结构化的,涉及的事务比较简单,数据访问路径是已知的,至少是固定的。
OLTP面对的是事务处理操作人员和低层管理人员。;(2) 联机分析处理(OLAP);(3) OLTP与OLAP的对比 ;(二)数据挖掘的兴起;1 从机器学习到数据挖掘;(1) 1980年在美国召开了第一届国际机器学习研讨会;
明确了机器学习是人工智能的重要研究方向
(2) 1989年8月于美国底特律市召开的第一届知识发现(KDD)国 际学术会议;
首次提出知识发现概念
(3) 1995年在加拿大召开了第一届知识发现和数据挖掘(DM)国际学术会议;
首次提出数据挖掘概念
(4) 我国于1987年召开了第一届全国机器学习研讨会。
;2 数据挖掘含义;3 数据挖掘与OLAP的比较;4 数据挖掘与统计学;统计学中应用于数据挖掘的内容;统计学与数据挖掘的比较 ;(三)数据仓库和数据挖掘的结合;1 数据仓库和数据挖掘的区别与联系;(1) 数据仓库与数据挖掘的区别;(2)数据仓库与数据挖掘的关系;(3)数据仓库中数据挖掘特点;2 基于数据仓库的决策支持系统;数据仓库中有大量的综合数据,为决策者提供了综合信息。数据仓库保存有大量历史数据,通过预测模型计算可以得到预测信息。
联机分析处理(OLAP)对数据仓库中的数据进行多维数据分析,即多维数据的切片、切块、旋转、钻取等,得到更深层中的信息和知识。
数据挖掘(DM)技术能获取关联知识、时序知识、聚类知识、分类知识等。
数据仓库(DW)、联机分析处理(OLAP)、数据挖掘(DM)等结合,形成决策支持系统。
;二 数据仓库基本原理与应用;(一) 数据仓库的定义与特点; SAS软件研究所观点:
数据仓库是一种管理技术,旨在通过通畅、合理、全面的信息管理,达到有效的决策支持。;2. 数据仓库特点;(1)面向主题; 数据进入数据仓库之前,必须经过加工与集成。
对不同的数据来源进行统一数据结构和编码。统一原始数据中的所有矛盾之处,如字段的同名异义,异名同义,单位不统一,字长不一致等,将原始数据结构做一个从面向应用到面向主题的转换。;数据仓库反映的是历史数据的内容,而不是日常事务处理所产生的操作性数据,进入数据仓库的数据是极少甚至根本不修改的。
数据仓库是随时间变化的
数据仓库内的数据时限在5~10年,故数据的键码包含时间项,标明数据的历史时期,这适合DSS进行时间趋势分析。
而数据库只包含当前数据,即存取某一时间的正确的有效的数据。;数据仓库是不同时间的数据集合,要求数据仓库中的数据保存时限能够满足进行决策分析的需要,并且均要标明该数据的历史时期。;(二)数据字典与元数据;1 数据库的数据字典;2 数据仓库的元数据;数据仓库的元数据除对数据仓库中数据的描述(数据仓库字典)外,还有以下三类元数据 :
关于数据源的元数据
关于抽取和转换的元数据
关于最终用户的元数据;数据仓库概念的理解;(三) 数据仓库的结构体系;1 数据仓库中的数据(仓库结构);近期基本数据(当前详细数据, Current Detail Data ):是当前和最近时期的业务数据,是数据仓库用户最感兴趣的部分,数据量大。
历史基本数据(历史详细数据, Older Detail Data ):近期基本数据随时间的推移,由数据仓库的时间控制机制转为历史基本数据。
轻度综合数据( Lightly Summary Data ):是从近期基本数据中提取出的,这层数据是按时间段选取,或者按数据属性(attributes)和内容(contents)进行综合。
高度综合数据( Highly Summary Data ):这一层的数据是在轻度综合数据基础上的再一次综合,是一种准决策数据。
;2 数据仓库系统的结构;3 数据仓库的运行结构; OLAP服务器将加强和规范化决策支持的服务工作,集中和简化了原客户端和数据仓库服务器的部分工作,降低了系统数据传输量。
这种结构形式工作效率更高。;(四)数据仓库的数据模型;1.数据概念模型;商品;维就是相同类数据的集合,商店、时间和产品都是维。各个商店的集合是一维,时间的集合是一维,商品的集合是一维。每一个商店、每一段时间、每一种商品就是某一维的一个成员。
每一个销售事实由一个特定的商品、一个特定的时间、一个特定的商品组成。
两维表,如通常的电子表格。三维
您可能关注的文档
最近下载
- 项目七+用计算机计算圆周率说课及试讲课件-2024-2025学年沪科版(2019)高中信息技术必修一.pptx VIP
- 小米集团2025年组织架构及各部门职责解析.docx VIP
- 输液导管相关静脉血栓形成防治中国专家共识解读PPT课件.pptx VIP
- 2025年广西公需课人工智能时代的机遇与挑战——预训练大模型与生成式AI参考答案.docx VIP
- 新22G04 钢筋混凝土过梁.docx VIP
- 疖肿合并疼痛护理查房.pptx VIP
- 2024年山东省东营市河口区中考一模语文试题(解析版).pdf VIP
- 居民阶梯电价作业指导手册.pdf VIP
- XXXX无线网施工方案.docx VIP
- 数字素养与技能.pptx VIP
文档评论(0)