- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第一章数据库引言
数据仓库与数据挖掘 南京理工大学计算机学院 徐建 dolphin.xu@mail.njust.edu.cn 参考教材 数据仓库 (中译本) W.H. Inmon 机械工业出版社 数据仓库原理与实践 林宇 等 编著 人民邮电出版社 数据挖掘-概念与技术(中译本) (加) Jiawei Han Micheline Kamber (著) 范明 等(译) 机械工业出版社 第1章 数据仓库与数据挖掘概述 1.1 概述 1.2 体系化环境的早期演化 1.3 从数据库到数据仓库 1.4 自然演化体系结构的问题 1.5 方式的变迁 1.1 决策支持系统的发展 信息系统领域是一个“不成熟”的领域。 数据仓库的历史是伴随某种发展过程开始的 数据仓库在体系结构环境的演化中处于中心地位 1.2 体系化环境的早期演化 主文件(60年代) 直接存储设备DASD(70年代) 个人PC和4GL(80年代) 抽取程序(90年代) 体系化环境的早期演化 1.3 从数据库到数据仓库 在市场经济激烈竞争中,企业必须把业务经营同市场联系,在此基础上作出科学、正确的决策以求生存。为此,企业纷纷建立了自己的数据库系统,由计算机管理代替手工操作,以此来收集、存储、管理业务数据,改善办公环境,提高操作人员的工作效率。 问题:面向业务操作设计,无论是查询、统计,还是生成报表,其处理方式都是对指定的数据进行简单的数字处理 查询问题 保险公司:购买人寿保险的客户一般有哪些特征? 市场部经理:在过去的一个季度里,咨询哪三样产品的热线电话最多? 原因 数据库是针对操作型处理设计的,而操作型处理以传统的数据库为中心进行企业的日常业务处理,处理的数据是企业业务的细节信息,其目的不是为企业的决策者提供支持、决策信息。 事务处理,是指对数据库的日常联机访问操作,所以也叫联机事务处理(OLTP online transaction process)。 其访问特点是: 通常仅仅是对一个或一组记录的查询或修改 执行频率高 数据处理的并发性 人们关心的是处理的响应时间、数据的安全性和数 据的一致性和完整性等指标。 抽取程序 为了完成决策者的询问,信息部门必须:抽取数据 抽取程序搜索整个文件或数据库,使用某种标准选择符合约束条件的数据,并把数据传到其它文件或数据库中。 抽取程序 抽取程序很快流行起来并渗透到信息处理环境中,其原因是: 1)抽取程序将数据从高性能联机事务处理方式中转移出来,所以在需要总体分析数据时就与联机处理事务能不冲突 2)当抽取程序将数据从操作型事务处理范围内移出时,数据的控制方式就发生了转变。最终用户一旦开始控制数据,他最终就拥有了这些数据。 1.4自然演化体系结构--蜘蛛网 自然演化体系结构的问题 数据缺乏可信性 生产率 数据转化为信息的不可行性 数据缺乏可信性 数据无时基(抽取数据的时间不同) 数据算法上的差异(分析程序不同) 抽取的多层次(分析内容不同) 外部数据问题(参考的外部信息) 无起始公共数据源(抽取数据的内容不同) 生产率 为回答一个决策查询,需要: 定位报表所需要的数据并分析数据 为报表编辑数据 为完成以上工作,召集程序员/分析员,对他们而言: 要写的程序很多 每个程序必须是定制的 程序涵盖了公司拥有的所有技术 从数据到信息的不可行性 在自然演化体系结构中建立起来的系统对信息需求的支持是不充分的,原因是它们缺乏集成性、以及在分析性处理需要的时间上和在蜘蛛网环境中应用程序的可用时间期限上存在差异。 围绕一个主题涉及到不同时期开发的应用程序,开发时从没有考虑过以后的集成问题 同一个含义在不同的数据库中用不同的名字字段 同一个含义用不同信息描述(男、女,m,f,1,0) 不同的含义用了相同的字段名; 历史数据的存储时间不同。有的数据库保留了一年的数据,有的为5年 1.5 方式的变迁 体系结构需要转变,体系化的数据仓库环境应该在变化了的体系结构上建造。 体系结构设计环境的核心是意识到存在着两种基本数据:原始数据和导出数据。 原始数据 VS 导出数据 操作型系统和分析型系统的分离 自进入90年代以后,数据库系统的应用从传统的事务处理应用扩展到辅助决策等新的集成应用领域。 数据仓库-分析型处理 用于企业管理人员的决策分析,为制订企业的未来经营管
您可能关注的文档
最近下载
- 《机械识图》(第四版)完整版教学课件全书电子讲义(最新).pptx VIP
- 2024年10月全国自考03708中国近代史纲要真题试卷及详细答案.docx VIP
- 五金手册换算.pdf VIP
- A2E游艇操作人员理论知识考试题及答案(完整版).docx VIP
- 标签打印软件如何制作卷烟标价签模板.doc VIP
- (新版)游艇帆船(A2F)理论知识考试题(附答案).doc VIP
- wifi万能钥匙 wifi万能钥匙下载 wifi密码查看器 360免费wifi..doc VIP
- 中石化考试题库及答案.doc
- 毕业设计-带式输送机毕业设计.doc VIP
- 2025年全国自考4月03708中国近代史纲要真题及答案汇总.doc VIP
文档评论(0)