- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据仓库技术介绍.ppt
数据仓库技术介绍 内容提要 动机与需求 数据仓库技术 数据仓库在宝钢的实践 结束语 面临的问题 人们在日常生活中经常会遇到这样的情况: 超市的经营者希望将经常被同时购买的商品放在一起,以增加销售; 保险公司想知道购买保险的客户一般具有哪些特征; 医学研究人员希望从已有的成千上万份病历中找出患某种疾病的病人的共同特征,从而为治愈这种疾病提供一些帮助; …… 企业面临的问题 经过多年的计算机应用和市场积累,许多企业保存了大量原始数据和各种业务数据, 它是企业生产经营活动的真实记录 由于缺乏集中存储和管理,这些数据不能为本企业加以利用, 不能进行有效的统计、分析及评估,无法将这些数据转换成企业有用的信息 数据爆炸问题 自动的数据收集工具和成熟的数据库技术导致巨大的数据存储在文件系统、数据库和其它的信息库中 。 我们会淹死在数据中, 但却为信息、知识所饿! 面临的挑战 如何在堆积如山的企业交易数据中发现具有商业价值的闪光点? 如何使您的企业或组织在激烈的市场竞争中保持对客户的吸引力? 如何预先发现和避免企业运作过程中不易察觉的商业风险? 宝钢的现状及需求 宝钢拥有许多传统的OLTP(联机事务处理)系统,担负着许多重要的日常事物处理工作,在宝钢的生产经营活动中扮演着重要角色。 经过多年的计算机应用,宝钢积累了大量丰富翔实的原始生产实绩数据和各种业务数据,它反映了企业生产经营过程中规律性的信息和知识,由于缺乏集中存储和管理,对如何充分有效地利用这些数据,却一直没有很好的解决方法,不能利用它们进行有效的统计、分析及评估,无法将这些数据转换成企业真正有用的信息。 宝钢追求的目标 宝钢作为中国的特大型钢铁企业,它的主要建设目标是在激烈的国际国内市场竞争中立于不败之地,并且要加强管理、优化资源,追求效益最大化。这就要求使其生产和经营过程共同达到优化,例如,能够快速准确地提供报价、确定交货期、以及确保产品质量等,并且制定有正确的企业发展战略,以适应市场需求的变化,能做出及时反应。 宝钢股份的质量方针 “重用户、重改进、重效率、重价值,为社会提供世界一流的产品和服务。” ----- 宝钢股份质量方针 随着市场竞争的加剧和用户要求的提高,从大量数据中挖掘规律性知识,制定正确的生产策略和市场策略,显得越来越重要。 市场需求是技术发展的源动力 数据仓库的出现和发展是数据库和OLTP技术发展、数据库应用深化的产物; 目的是把数据库中的大量数据转化为有用信息,为企业更好地进行决策服务。 内容提要 动机与需求 数据仓库技术 数据仓库在宝钢的实践 结束语 当时单位容量的联机存储介质比现在昂贵得多,相对于市场竞争的压力,将大量的历史业务数据长时间联机保存去用于分析显然是过于奢侈了。因此,联机事务处理系统只涉及当前数据,系统积累下的历史业务数据往往被转储到脱机的环境中。 在计算机系统应用的早期,还没有积累大量的历史数据可供统计与分析。从而,联机事务处理成为整个80年代直到90年代初数据库应用的主流。 数据仓库的定义 数据仓库是面向主题的、综合的、不同时间的、稳定的时间集合,主要用于支持经营管理中的决策制定过程 数据仓库之父--Bill Inmon 数据仓库的四个基本特征 数据仓库的数据是面向主题的 数据仓库的数据是集成的 数据仓库的数据是不可更新的 数据仓库的数据是随时间不断变化的 数据仓库的体系结构 数据的抽取(1) 数据的抽取是数据进入仓库的入口。由于数据仓库是一个独立的数据环境,它需要通过抽取过程将数据从联机事务处理系统、外部数据源、脱机的数据存储介质中导入到数据仓库。数据抽取在技术上主要涉及互连、复制、增量、转换、调度和监控等方面。 数据的抽取(2) 数据仓库中的数据并不要求与联机事务处理系统保持实时同步,因此数据抽取可以定时进行,但多个抽取操作执行的时间、相互的顺序、成败对数据仓库中信息的有效性则至关重要。 存储和管理 数据仓库的真正关键是数据的存储和管理。数据仓库的组织管理方式决定了它有别于传统数据库,同时也决定了其对外部数据的表现形式。 要决定采用什么产品和技术来建立数据仓库的核心,则需要从数据仓库的技术特点着手分析。 信息探索 信息探索实际上相当于数据仓库的门面,其性能主要集中在多维分析、数理统计和数据挖掘方面。 多维分析又是数据仓库的重要表现形式,近几年来由于互联网的发展,使得多维分析领域的工具和产品更加注重提供基于Web前端联机分析界面,而不仅仅是在网上发布数据。 什么是企业数据仓库 ? 企业数据仓库的另一种定义 采用正确的方法论 SAS快速数据仓库方法 快速数据仓库方法的重点 快速数据仓库方法的重点(续) 企业关键
文档评论(0)