- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
tp-4410数据仓库和数据挖掘原理及的应用第1章.ppt
第一章 目录 1.1 从数据库到数据仓库 1.2 什么是数据仓库 1.3 数据仓库与传统数据库的比较 1.4 数据仓库的系统结构 1.5 数据仓库的数据组织 1.6 本章小结 1.1 从数据库到数据仓库 传统数据库以及OLTP(On-Line Transaction Processing 联机事务处理)在日常的管理事务处理中获得了巨大的成功,但是对管理人员的决策分析要求却无法满足。因为,管理人员常常希望能够通过对组织中的大量数据进行分析,了解业务的发展趋势。而传统数据库只保留了当前的业务处理信息,缺乏决策分析所需要的大量的历史信息。为满足管理人员的决策分析需要,就需要在数据库的基础上产生适应决策分析的数据环境——数据仓库(Data Warehose)。 1.1.1 蜘蛛网问题(1) 在市场经济的激烈竞争中,信息对于企业的生存和发展起着至关重要的作用。企业对信息的需求是多方面的,为了避免企业中各部门或各用户间的冲突和简化用户的数据视图,一种称作“抽取程序”的方法被广泛地应用。 比如,市场部人员通常只关心企业的销售、市场策划方面的信息,而不注重企业的研发、生产等其他环节。因此,将销售、市场策划方面的信息抽取出来单独建立部门级的数据库很有必要,这样可以提高数据的访问效率。 1.1.1 蜘蛛网问题(2) 在部门级数据的基础上可能还要被继续执行抽取程序,以建立个人级的数据库。比如,专门负责制作公司财务报表的数据人员,常常需要从财务部门的数据库系统中抽取数据。又如,部门经理可能经常抽取常用的数据到本地,有针对性的建立个人级数据库就显得尤为重要。 随着数据的逐层抽取,很可能最终导致系统内的数据间形成了错综复杂的网状结构,如图1.1所示,人们形象地称为“蜘蛛网”。一个大型的公司每天进行上万次的数据抽取很普遍。这种演变不是人为制造的,而是自然演变的结果。企业的规模越大,“蜘蛛网”问题就越严重。 1.1.1 蜘蛛网问题(3) 网上的任意两个节点的数据可能归根结底是从一个原始库中抽取出来的,但其数据没有统一的时间基准,因而错综复杂的抽取与访问将产生很多问题,主要有以下几个方面。 1.1.1 蜘蛛网问题(4) 1. 数据分析的结果缺乏可靠性 图1.2中展示了某企业的市场部和计划部对项目I是否具有市场前景的分析过程和结果。市场部认为“项目I的市场前景很好”,而计划部却得到截然相反的结果----“项目I没有市场前景”。作为企业的最终决策者,将如何根据这样的结论进行决策呢? 为什么分析同一个企业数据库中的数据,却得到截然相反的结论呢? 首先,两部门可能抽取数据的内容不同。比如,市场部抽取的是项目I在大客户中的应用情况,而计划部抽取的是项目I在普通客户中的应用情况。 1.1.1 蜘蛛网问题(5) 其次,可能两部门抽取数据的时间不同。如市场部在星期日晚上提取分析所需的数据,而计划部在星期三下午就抽取了数据。有任何理由相信对某一天抽取的数据样本进行分析与对另一天抽取的数据样本进行的分析可能相同吗?当然不能!企业内的数据总是在变的。 再次,引用外部信息的不同。分析项目的发展趋势常常需要引入企业外部的信息,比如报刊信息、国家的政策等。市场部门引用的外部信息来源可能与计划部门不同,而外部信息自然是仁者见仁,智者见智,这也可能是导致最终分析结果不同的原因。 最后,分析程序的差异。市场部门使用的分析程序可能与计划部门不同,分析的内容和指标也可能不同。 1.1.1 蜘蛛网问题(6) 1.1.1 蜘蛛网问题(7) 2. 数据处理的效率很低 数据分析的结果缺乏可靠性并不是蜘蛛网问题中唯一的主要问题。在一个大型企业中,不同级别的数据库可能使用不同类型的数据库系统,对于拥有巨型数据量的企业级数据库可能使用IBM DB2,而对于部门级和个人级的中小型数据库可能使用SQL Server。各种数据库的开发工具和开发环境不同,当需要在整个企业范围内查询数据时,数据处理的低效率将是不容忽视的。 如果一个大型企业的决策领导需要一份关于公司整体运营情况的报表,通常需要动用大量的人力和物力才能达到。首先,定位报表需要的数据,即确定报表涉及的内容分布在哪个数据库的哪个位置,然后调动各个部门的程序员/分析员对应用
您可能关注的文档
- Lecture 7(商务说明书翻译).ppt
- Lecture2 概率论复习及R相关的应用.ppt
- macro066.doc
- matlab 矩阵和线性变换和计算.ppt
- MATLAB-第14讲 拟合.ppt
- matlab第二章__常微分方程数值解法.ppt
- matlab编程代做highspeedlogic★卷积编码.doc
- MIMO信道信道容量.pptx
- MIMO系统天线选择方法地地研究.ppt
- MINI COUNTRYMAN汽车团购十大划算排行榜.ppt
- 2026年青海两弹一星干部学院招聘备考题库及一套参考答案详解.docx
- 2026年黄石市某学校招聘小学语文教师备考题库附答案详解.docx
- ·昆明高新技术产业开发区管理委员会2026年事业单位公开选调工作人员备考题库附答案详解.docx
- 中国热带农业科学院广州实验站2026年第一批公开招聘工作人员备考题库及完整答案详解1套.docx
- 2026年黑龙江省桦南林业局有限公司招聘备考题库及1套参考答案详解.docx
- 中国民用航空局清算中心2026年度公开招聘应届毕业生5人备考题库及参考答案详解1套.docx
- 中国科学院西北高原生物研究所2026年第一批科研岗位招聘备考题库及参考答案详解.docx
- 中国人民银行清算总中心直属企业银清科技有限公司2026年度公开招聘备考题库含答案详解.docx
- 中华中学2026年1月公开招聘编制内教师备考题库及一套完整答案详解.docx
- 东莞市城建工程管理局2025年公开招聘编外聘用人员备考题库含答案详解.docx
最近下载
- 深度解析(2026)《AQ 2013-2008金属非金属地下矿山通风安全技术规范》.pptx VIP
- 智慧园区智能安防解决方案概述.pptx VIP
- 领导班子2025年度民主生活会对照检查材料1.doc VIP
- 多元羧酸和磷酸对牙本质脱钙作用的比较.pdf VIP
- GB 55007-2021 砌体结构通用规范.docx VIP
- 2026五个带头发言材料三.docx VIP
- 鹤煤三矿围岩地质力学评估报告-终稿.pdf VIP
- 中国新型城镇化的低碳发展路径——问题、策略与案例.pdf VIP
- HAF003《核电厂质量保证安全规定》的理解要点共109页.ppt VIP
- 产品质量先期策划控制程序APQP.docx VIP
原创力文档


文档评论(0)