- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据仓库与数据挖掘 边雪芬 数据仓库 1.1 从数据库到数据仓库 1.2 什么是数据仓库 1.3 DBMS vs. DWMS 1.4 数据仓库的系统结构与相关问题 1.5 数据仓库的相关概念 1.1 从数据库到数据仓库 Why数据仓库 数据库:主要用于事务处理。数据库技术一直力图使自己能胜任从事务处理、批处理到分析处理的各种类型的信息处理任务。 但它对分析处理的支持一直不能令人满意,尤其是当以事务处理为主的OLTP(on-line transaction processing ,联机事务处理 )应用与以分析处理为主的DSS(Decision Support System ,决策支持系统)应用共存于同一个数据库系统中时,这两种类型的处理发生了明显的冲突。 1.1 从数据库到数据仓库 Why数据仓库 “蜘蛛网”问题 为了避免企业中各部门或各用户间的冲突和简化用户的数据视图,一种称作“抽取程序”的方法目前被广泛地应用。 不加控制的连续抽取最终导致系统内的数据间形成了错综复杂的网状结构,人们形象地称为“蜘蛛网”。 企业的规模越大,“蜘蛛网”问题就越严重。 虽然网上的任意两个节点的数据可能归根结底是从一个原始库中抽取出来的,但它们的数据没有统一的时间基准,抽取算法各不相同,抽取级别也不相同,并且可能参考不同的外部数据。因而对同一问题的分析,不同节点却会产生不同甚至截然相反的结果。这当然使决策者无从下手。 1.1 从数据库到数据仓库 事务型系统和分析型系统的分离 事务型系统 处理以传统的数据库为中心进行企业的日常业务处理 例如:电信行业的记费数据库、银行数据库 使用人员为企业的具体操作人员 处理的数据为企业业务的细节信息 目标是实现企业的业务运营 分析型系统 分析数据背后的关联和规律,为企业的决策提供可靠有效的依据。 例如:对高校大学生就业信息进行分析,以帮助学校指定招生计划并合理设置专业。 使用人员为企业的中高层管理者或从事数据分析的工程师 处理的数据为企业的宏观信息 目标是为企业决策者提供信息支持 1.1 从数据库到数据仓库 事务型系统和分析型系统的分离 可见,在事务型环境中直接构建分析型应用是不合适的。 要提高分析和决策的效率和有效性,分析型处理及其数据必须与操作型处理及其数据相分离。必须把分析数据从事务处理环境中提取出来,按照DSS处理的需要进行重新组织,建立单独的分析处理环境。 数据仓库正是为了构建这种新的分析处理环境而出现的一种数据存储和组织技术。 1.1 从数据库到数据仓库 对数据的处理分两类: 操作型处理(OLTP on-line transaction processing ) 操作型处理对数据的存取操作频率高而每次操作处理的时间短; --数据库系统 分析型处理(OLAP on-line analytical processing ) 在分析处理环境中,某个DSS应用程序可能需要连续几个小时,从而消耗大量的系统资源。 --数据仓库系统 第一章 数据仓库概述 1.1 从数据库到数据仓库 1.2 什么是数据仓库 1.3 DBMS vs. DWMS 1.4 数据仓库的系统结构与相关问题 1.5 数据仓库的相关概念 1.2 什么是数据仓库 什么是数据仓库 “A data warehouse is a subject-oriented, integrated, time-variant, and nonvolatile collection of data in support of management’s decision-making process.” --W.H.Inmon. 1992 数据仓库是面向主题的、集成的、稳定的、随时间变化的数据集合,用于支持管理决策过程。 Data Warehouse Properties 1.2 什么是数据仓库 数据仓库的四个主要特征 数据仓库是面向主题的(Subject-Oriented) 操作型数据库的数据组织面向事务处理任务,各个业务系统之间各自分离,而数据仓库中的数据是按照一定的主题域进行组织。 主题是一个抽象的概念,指用户使用数据仓库进行决策时所关心的重点方面,一个主题通常与多个操作型信息系统相关。是对各分析对象所涉及的操作数据库中的数据的集成,是更高级别的数据抽象。 典型的主题领域:客户;产品;交易;帐目 数据仓库围绕一些主题,排除对于决策无用的数据,提供特定主体的简明视图。 1.2 什么是数据仓库 数据仓库的四个主要特征 数据仓库是面向主题的(Subject-Oriented) 例如,若企业决策人员预分析客户的财务信息,则需要把关于客户的各种财务信息综合在“Customer Financial ”这
文档评论(0)