2.数据仓库与数据挖掘项目建设-讲义备课讲稿.docxVIP

2.数据仓库与数据挖掘项目建设-讲义备课讲稿.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据仓库与数据挖掘项目建设 数据仓库知识简介 1.1软件质虽控制 软件质量控制的主要目的是为了获得更高的开发效率,避免返工,提高产品的市场竞争 力,从而为客户提高符合质量需求的稳定可靠的软件产品,同时它也是控制方法的集合,包 括软件建模、度量、评审以及其他活动。 1.2用于软件控制的一般性方法如下: 目标问题度量法,即通过软件质量目标并持续观察这些目标是否达到软件质量控制的一种 方法 风险管理法,即识别与控制软件开发中对成功达到质量目标危害最大的哪些因素的系统性 方法 PDCA循环。这种方法发源于日本,是指计划 plan,做do ,检查check,和行动action 1.3信息化的需求: 随着信息化的高速发展,各行各业,各组织单位积累了大量的业务数据,这些数据存在 于各单位的数据库,各种报表、文档中,真可谓是数据的海洋。这些数据中蕴含着组织业务 活动的大量规则,包含着组织管理决策所需要的重要知识,从这些数据中挖掘出有价值的信 息,为管理决策提供支持是政府和企业事业单位共同面临的问题。 解决这个问题主要依赖于亮相技术: 一是对整个组织各部门生产的各种业务数据进行统一和综合,把业务数据转化为商业信 息,支持决策,即数据仓库。 二是发现隐藏在各种数据之中有用的知识,即数据挖掘。 1.4以银行为案例的IT整体架构 1.5数据仓库的定义 ? 数据仓库系统是指面向主题的、集成的、稳定的同时乂是随时间变化的大量的数据集合 在综合使用一些应用软件下,用户获得想要的信息,最终为经营管理的决策提供有力的 帮助 ? 数据仓库系统的业务特征是业务需求的范围和内容,不像业务系统那样活晰和明确:系 统建设的一个主要风险是体现在软件工程质量和申接方面存在较大的过程风险:系统建 设的成功标准应该由应用系统的用户数及其使用频率作为重要参考依据。 1.6数据仓库的建设过程的挑战 如何来控制风险、如何来保证质量呢?把质量控制作为数据仓库建设的生命线,把它贯 穿丁数据仓库建设整个过程的始终。那么质量控制的中心环节乂是什么呢? 简单而言,包括 事前控制:对方案和计划进行充分的咨询和论证; 事中管理:对建设开 发阶段进行持续不断的过程控制; 事后控制:对丁建设成果通过测试、评审、验收、试运行 等方式进行面向结果的管理控制。 1.7数据仓库的质虽控制 ? 关丁数据仓库中的质量管理问题的研究,目前有几个主要的切入点: 从数据仓库的设计入手,简历适合全方位质量控制的体系结构 遵从生命周期观点,全过程控制数据仓库建设质量 按照数据仓库凶的工作机制和部件构成来制定质量控制标准 数据仓库质量从本质上说是总体数据质量的问题。数据仓库的质量问题是一个主观的标 准问题,不同层次的人员对数据仓库的质量有不同的要求,必须根据追求的目标来制定质量 的测评、预测标准并加以实现,才能真正达到质量控制的目的 1.8数据仓库的精确定义 上世纪80年代中期,“数据仓库之父” William.H.Inmon 先生在其《建立数据仓库》一 书中定义了数据仓库的概念,随后乂给出了更为 精确的定义:数据仓库是在企业管理和决策 中面向主题的、集成的、与时间相关的数据集合。与其他数据库应用不同的是,数据仓库更 像是一种过程,是对分布在企业内部各处的业务数据整合、加工和分析的过程。而不是一种 可以购买的产品。 1.9数据仓库的特点 1.9.1数据仓库是面向主题的 主题是一个比较抽象的概念,是一种在较高层次上将企业信息系统中的数据综合、归类 后进行分析利用的抽象。在逻辑意义上,它是对应企业中某一宏观分析领域所涉及的分析对 象,是针对某一决策问题而设置的 面向主题的数据组织方式,就是在较高层次上对分析对象数据的一个完整、统一、一致 的描述,能完整及统一地描述出各个分析对象所设计的相关企业的分项数据,以及数据之间 精品文档 的联系 1.9.2数据仓库是集成的 全面而正确的数据是进行有效分析和决策的首要前提。在某一个主题的统帅下,需要对 数据进行抽取、活晰、转换和加载等集成操作。因为: 数据仓库的数据不是直接从原有数据库系统复制得到,因为原有数据库系统记录的是 每一项业务处理的流水账,这类数据不适合用丁分析处理。在进入数据仓库之前必须 经过综合计算,抛弃分析处理不需要的数据项,增加一些可能涉及的外部数据。 数据仓库每一个主题所对应的源数据在原数据库中有可能有许多重复或不一致之处, 必须将这些数据转换成全局统一的定义, 消除不一致和错误之处,以保证数据的质量 显而易见的是,对不准确,甚至不正确的数据进行分析得出的结果将不能用丁知道企 业领导者做出科学的决策 1.9.3数据仓库是相对稳定的 操作型数据库中的数据通常实时更新,数据根据需要发生变化。数据仓库的数据主要供 企业领导者决策分析之用,所涉及的数据操作主要是数据查询和分析,

文档评论(0)

zhang0711 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档