- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第7章 数据仓库和数据挖掘 本章学习目标 了解数据仓库的概念及特点 了解数据挖掘的应用和功能 熟悉数据挖掘的几种主要技术 第7章 数据仓库和数据挖掘 第7章 数据仓库和数据挖掘 7.1.1 数据仓库概念与特点 始于20世纪80年代初,“数据仓库之父”William H.Inmon。 “数据仓库是在企业管理和决策中面向主题的、集成的、相对稳定的、与时间相关的数据集合,以支持经营管理中的决策。 数据仓库用于支持决策,面向分析型数据处理,不同于企业现有的操作型数据库;数据仓库是对多个异构的数据源有效集成,集成后按照主题进行了重组,并包含历史数据。 7.1.1 数据仓库概念与特点 7.1.1 数据仓库概念与特点 (1)面向主题 数据库:面向事务处理任务,各系统分离 数据仓库:按照一定的主题域组织在一起 主题:用户使用数据仓库进行决策时所关心的重点方面。针对决策者的数据分析,而不是日常事务的处理,因而排除了对决策无用的数据,提供了特定主题的简明视图。是对应企业中某一宏观分析领域所涉及的分析对象,是针对某一决策问题而设置的。 例如:一个保险公司的数据仓库所组织的主题可能是:客户、政策、保险金、索赔等,而按应用来组织则可能是:汽车保险、生命保险、伤亡保险等。 7.1.1 数据仓库概念与特点 (2)集成的数据 从原来分散的多个异种数据源(关系数据库、文本数据库、Web数据库、一般文件等)构成的子系统中提取数据。 ① 原有数据库系统记录的是每一项业务处理的流水账,不适合分析处理,在进入数据仓库之前必须进行综合、计算,抛弃分析处理不需要的数据项,必要时增加一定的外部数据。 ② 原分散数据库中有很多重复或不一致的地方,必须消除不一致和错误,全局统一。 7.1.1 数据仓库概念与特点 (3)数据相对稳定 数据库:通常定时更新,根据需要变化 数据仓库:主要供查询,只读。 从内容上看,存储当前和历史的数据,不是日常事务产生的数据,并且当前数据在一定时间间隔后要转换成历史数据转存慢速设备,不需要的则删除,因此极少修改。 7.1.1 数据仓库概念与特点 (4)数据仓库的时间相关性 数据仓库中的数据都要表明时间属性。通常包含历史信息,记录了企业从过去某一时点(如开始应用数据仓库的时点)到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。为了满足决策分析的需要,数据仓库的数据存储期限一般为5~10年,当超过数据仓库的存储期限,或对分析不再有用时,这些数据将从数据仓库中删去。 学籍管理系统 成绩管理系统 7.1.2 传统数据库与数据仓库 联机事务处理和联机分析处理 联机事务处理(OLTP)——传统的关系型数据库的核心应用。 OLTP:执行基本的增加、删除等联机事务和查询处理,及时、安全地将当前事务所产生的记录保存下来。几乎涵盖了组织的大部分日常操作。SQL语言 例如:银行交易管理系统中,每天的大量操作都限于增加新账号、删除旧账号、更改账号中的金额数据、查询客户账号余额等。 联机分析处理(OLAP)——数据仓库的核心应用。 OLAP:针对同一个主题对数据进行分析、查询和生成报表,从而快速、交互地得出决策支持的分析结论。 基本功能是对用户当前及历史数据进行分析以辅导领导决策,侧重决策支持,并提供直观易懂的查询结果。 7.1.3 CRM中数据仓库的结构 体系结构——斯坦福大学的数据仓库体系结构 7.1.3 CRM中数据仓库的结构 体系结构——综合的数据仓库的体系结构 7.1.3 CRM中数据仓库的结构 7.1.3 CRM中数据仓库的结构 关于数据的数据 组织仓库内的数据存储,描述何种信息存于何处,怎样编码,怎样与其他信息相关,来自哪里,怎样与业务相关。 元数据对于管理、组织、探索数据非常重要,它能够让用户知道数据仓库有什么,以及如何使用。 例如:数据仓库表的结构、数据仓库表的属性、数据仓库的元数据、抽取日志。 7.1.3 CRM中数据仓库的结构 7.1.4 数据仓库几个重要概念 对数据仓库中数据综合程度的一个度量 粒度越高,综合程度越高,细节程度越低 粒度越低,综合程度越低,细节程度越高 将近期的、综合的、查询频率高的高粒度数据存放于磁盘、光盘等快速设备 将久远的、细节的、查询频率低的低粒度数据存放于磁带等低速设备 7.1.4 数据仓库几个重要概念 将数据分散到各自的物理单元中,以便能分别地、独立地处理,提高效率。 数据分割时可以依据不同的标准,如日期、地域或业务领域等,也可以是它们的组合,一般按日期分割不可或缺。 数据分割后的数据单元称为分片,各个分片内的数据独立,处理和重构、
您可能关注的文档
最近下载
- 新22S6消防工程参考标准.docx
- 慢性肾脏病早期筛查、诊断及防治指南(2022年版).pptx VIP
- 家庭饮食健康计划.pptx VIP
- 2025年福建省厦门集美中学招聘办公室职员1人笔试备考题库及答案解析.docx VIP
- 级配碎石施工 ..ppt VIP
- 2022年7月上海高考英语真题(学生版+解析版+听力音频).docx
- DB44T 1212-2013 用能单位能源计量管理体系通用要求.pdf VIP
- 上-下气道慢性炎症性疾病联合诊疗与管理专家共识中华医学会呼吸病学分会哮喘学组(发布时间:2017-07).pdf VIP
- 心力衰竭诊疗规范.docx VIP
- 光照时间对三斑海马幼苗成活率和生长速度的影响.pdf VIP
文档评论(0)