- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据仓库与数据挖掘 南京理工大学计算机学院 徐建 dolphin.xu@mail.njust.edu.cn 参考教材 数据仓库 (中译本) W.H. Inmon 机械工业出版社 数据仓库原理与实践 林宇 等 编著 人民邮电出版社 数据挖掘-概念与技术(中译本) (加) Jiawei Han Micheline Kamber (著) 范明 等(译) 机械工业出版社 第1章 数据仓库与数据挖掘概述 1.1 概述 1.2 体系化环境的早期演化 1.3 从数据库到数据仓库 1.4 自然演化体系结构的问题 1.5 方式的变迁 1.1 决策支持系统的发展 决策支持系统(decision support system ,简称DSS)是辅助决策者通过数据、模型和知识,以人机交互方式进行半结构化或非结构化决策的计算机应用系统。 是管理信息系统(MIS)向更高一级发展而产生的先进信息系统。它为决策者提供分析问题、建立模型、模拟决策过程和方案的环境,调用各种信息资源和分析工具,帮助决策者提高决策水平和质量。 信息系统领域是一个“不成熟”的领域。 还在不断发展,数据仓库正是不断发展的产物 1.2 体系化环境的早期演化 主文件(60年代) 直接存储设备DASD(70年代) 个人PC和4GL(80年代) 抽取程序(90年代) 体系化环境的早期演化 1.3 从数据库到数据仓库 在市场经济激烈竞争中,企业必须把业务经营同市场联系,在此基础上作出科学、正确的决策以求生存。为此,企业纷纷建立了自己的数据库系统,由计算机管理代替手工操作,以此来收集、存储、管理业务数据,改善办公环境,提高操作人员的工作效率。 问题:面向业务操作设计,无论是查询、统计,还是生成报表,其处理方式都是对指定的数据进行简单的数字处理 查询问题 保险公司:购买人寿保险的客户一般有哪些特征? 市场部经理:在过去的一个季度里,咨询哪三样产品的热线电话最多? 原因 数据库是针对操作型处理设计的,而操作型处理以传统的数据库为中心进行企业的日常业务处理,处理的数据是企业业务的细节信息,其目的不是为企业的决策者提供支持、决策信息。 事务处理,是指对数据库的日常联机访问操作,所以也叫联机事务处理(OLTP online transaction process)。 其访问特点是: 通常仅仅是对一个或一组记录的查询或修改 执行频率高 数据处理的并发性 人们关心的是处理的响应时间、数据的安全性和数 据的一致性和完整性等指标。 抽取程序 为了完成决策者的询问,信息部门必须:抽取数据 抽取程序搜索整个文件或数据库,使用某种标准选择符合约束条件的数据,并把数据传到其它文件或数据库中。 抽取程序 抽取程序很快流行起来并渗透到信息处理环境中,其原因是: 1)抽取程序将数据从高性能联机事务处理方式中转移出来,所以在需要总体分析数据时就与联机处理事务能不冲突 2)当抽取程序将数据从操作型事务处理范围内移出时,数据的控制方式就发生了转变。最终用户一旦开始控制数据,他最终就拥有了这些数据。 1.4自然演化体系结构--蜘蛛网 自然演化体系结构的问题 数据缺乏可信性 生产率 数据转化为信息的不可行性 数据缺乏可信性 数据无时基(抽取数据的时间不同) 数据算法上的差异(分析程序不同) 抽取的多层次(分析内容不同) 外部数据问题(参考的外部信息) 无起始公共数据源(抽取数据的内容不同) 生产率 为回答一个决策查询,需要: 定位报表所需要的数据并分析数据 为报表编辑数据 为完成以上工作,召集程序员/分析员,对他们而言: 要写的程序很多 每个程序必须是定制的 程序涵盖了公司拥有的所有技术 从数据到信息的不可行性 在自然演化体系结构中建立起来的系统对信息需求的支持是不充分的,原因是它们缺乏集成性、以及在分析性处理需要的时间上和在蜘蛛网环境中应用程序的可用时间期限上存在差异。 围绕一个主题涉及到不同时期开发的应用程序,开发时从没有考虑过以后的集成问题 同一个含义在不同的数据库中用不同的名字字段 同一个含义用不同信息描述(男、女,m,f,1,0) 不同的含义用了相同的字段名; 历史数据的存储时间不同。有的数据库保留了一年的数据,有的为5年 1.5 方式的变迁 体系结构需要转变,体系化的数据仓库环境应该在变化了的体系结构上
您可能关注的文档
- 人际沟通期末练习题及答案.doc
- 2014助理电子商务师理论模拟试题一.doc
- 病理学与病理生物学04任务001-005答案.doc
- 1.2 第一课 几个常用函数的导数、基本初等函数的导数公式及导数的运算法则 课件(人教A选修2-2).ppt
- 2013年公需课考试考试资料《新时期广东生态文明建设》答案9.doc
- 设计计算&压力机液压系统A.ppt
- 2012年秋福师《学校心理健康教育》在线作业一及答案.doc
- 第二章 平面向量 §2.2 向量的线性运算 2.2.1 向量的加法.ppt
- 最新C & C 学习范本第13章 C 特有功能与字串.ppt
- 2013新人教A版必修四2.2《平面向量的线性运算》ppt.ppt
文档评论(0)