- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第四章 商业分析的技术环境
数据仓库周边技术与工具产品挖掘任务与方法
01数据仓库
数据库与数据仓库比较项目传统数据库数据仓库内容与业务相关的数据与决策相关的数据数据模型关系、层次结构关系、多维结构数据结构数据结构化程度高,适合运算操作数据结构化程度始终负载事务处理量大,但每个事务涉及的记录数很少查询量小,但每次需要查询大量的记录事务输出一般很少可能非常大访问经常是随机地读、写操作经常是只读操作面向用户普通的业务处理人员高级的决策管理人员汇总情况原始数据,不做汇总多层次汇总,数据细节有损失停机可能意味着灾难性错误可能意味着延迟决策数据时间期限60-90天5-10年设计避免冗余,符合范式引入冗余,反范式传统数据库缺乏集成性主体不明确数据需求不匹配,无法支持决策分析活动
数据仓库数据仓库是基于大规模数据库的决策支持系统环境的核心,是进行数据分析和决策制定的一种技术方案。关于数据仓库的定义,目前被广泛接受的是由数据仓库之父William H.Inmon在“Building the Data Warehouse”一书中所提出的定义——数据仓库是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策。数据仓库是一个过程而不是一个项目,是一个环境而不是一件产品。
数据仓库的特点(1)面向主题“面向主题”是数据仓库中数据组织的最基本原则。操作型数据库的数据组织面向事务处理任务,各个业务系统之间各自分离,而数据仓库中的数据是按照一定的主题域进行组织。数据仓库的面向主题正是相对于传统数据库的面向应用而言。所谓面向应用是指系统实现过程中主要围绕着一些应用或功能,而面向主题则是考虑一个个的问题域,对问题域涉及的数据和分析数据所采用的功能给予同样的重视。所谓“主题”,是一个逻辑概念,是指用户使用数据仓库进行决策时所关心的重点方面,一个主题通常与多个操作型信息系统相关。(2)集成的数据仓库中数据的集成,是指在构建数据仓库的过程中,对多个外部数据源中格式不同、定义各异的数据,按既定的策略进行抽取、清洗、转换等一系列处理,使之成为一个有机的整体。这在数据仓库的所有特点中是最重要的。
数据仓库的特点(3)相对稳定的操作型数据库中的数据通常实时更新,数据根据需要及时发生变化。而数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中内容的更新、追加等操作是不频繁的,一般依据既定的周期或条件阈值进行。并且,数据在导入数据仓库后,虽然也有删除、更新等操作,但决定这种操作的阈值条件是较难满足的,这种情况是非常罕见的,通常只需要定期的加载、刷新。(4)反映历史变化数据仓库是以维的形式对数据进行组织的,时间维是数据仓库中很重要的维度之一,数据仓库的内容会随时间的变化而不断得到增补、更新。操作型数据库主要关心当前某一个时间段内的数据,而数据仓库虽然不会随业务的发生而频繁地更新数据,但为了保证决策分析的正确性,对数据仓库的内容定期加以增补和更新是十分必要的。所以数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。
数据仓库相关概念1.数据源构建一个数据仓库,必然要有充足的数据来源,为数据仓库系统提供进行分析的“原材料”——数据,这些数据来源成为数据仓库的数据源(Data Source)。数据仓库并不直接存储事务数据,其数据往往来源于多个数据源,并且数据源并不局限于传统数据库,也可以是其他类型的数据,甚至是非结构化的信息,如文本文件,也可以是网络资源。数据仓库必须将不同来源的数据聚集合并为结构一致的数据集,使其能够准确反映该来源的事务运行情况和历史记录。从业务系统中提取的或从外部数据源中导入的数据,经过清洗、转化后,成为数据仓库的原始数据。(它们是数据仓库数据的一部分,但不是全部)
数据仓库相关概念2.元数据数据是对事物的描述,“元数据”就是描述数据的数据,它提供了相关数据的环境,是关于数据仓库中数据、操作数据的进程以及应用程序的结构和意义的描述信息。元数据在数据仓库的设计、运行中有着十分重要的作用,它所描述的对象涉及数据仓库的各个方面。元数据在数据仓库中数据的上层,用于记录数据仓库中对象的位置。为了从操作型环境向数据仓库环境转换而建立的元数据:包括所有源数据项的名称、属性及其在提取仓库中的转化决策支持系统元数据:用来与最终用户的多维商业模型和前端工具之间建立映射元数据是数据仓库的一个综合文档,是数据仓库的核心,它决定了数据分析的有效性。通过元数据可以将数据仓库和
您可能关注的文档
- 商业分析实务 第二章商业分析的数据环境 教学PPT课件.pptx
- 商业分析实务 第九章商业分析在通信行业客户服务中的应用 教学PPT课件.pptx
- 商业分析实务 第六章通信业及其商业分析应用 教学PPT课件.pptx
- 商业分析实务 第七章商业分析在通信行业客户生命周期管理的应用 教学PPT课件.pptx
- 商业分析实务 第三章商业分析的应用环境 教学PPT课件.pptx
- 商业分析实务 第十八章 商业分析在互联网行业的应用 教学PPT课件.pptx
- 商业分析实务 第十二章商业分析在银行业客户营销中的应用 教学PPT课件.pptx
- 商业分析实务 第十六章商业分析在制造业中的应用 教学PPT课件.pptx
- 商业分析实务 第十七章商业分析在物流快递行业的应用 教学PPT课件.pptx
- 商业分析实务 第十三章商业分析在银行业风险管理中的应用 教学PPT课件.pptx
- 商业分析实务 第五章商业分析的组织环境 教学PPT课件.pptx
- 商业分析实务 第一章商业分析概论 教学PPT课件.pptx
- 数据分析与可视化实践 Excel和Access的连接 教学PPT课件.pptx
- 数据分析与可视化实践 MySQL简介 教学PPT课件.pptx
- 数据分析与可视化实践 成绩统计分析案例 教学PPT课件.pptx
- 数据分析与可视化实践 大数据发展 教学PPT课件.pptx
- 数据分析与可视化实践 大数据思维与技术 教学PPT课件.pptx
- 数据分析与可视化实践 数据表 教学PPT课件.pptx
- 数据分析与可视化实践 数据查询 教学PPT课件.pptx
- 数据分析与可视化实践 数据可视化概述 教学PPT课件.pptx
文档评论(0)