数据挖掘30102.docVIP

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
(第一章)为什么传统的数据库满足不了决策分析的需要?(P12) 主要原因是传统数据库的处理方式和决策分析中的数据需求不相称,导致传统数据库无法支持决策分析活动。这些不相称主要体现在如下几个方面(微观层面): . 系统响应问题 3. 数据仓库的定义及其基本特征。 数据仓库就是一个面向主题的、集成的、不可更新的、随时间不断变化的数据集合,它用以支持企业或组织的决策分析处理。 数据仓库的数据是面向主题的主题是数据归类的标准,每一个主题基本对应一个宏观的分析领域。例如,银行的数据仓库的主题:客户 在每个主题中,都包含了有关该主题的所有信息,同时又抛弃了与分析处理无关或不需要的数据,从而将原本分散在各个子系统中的有关信息集中在一个主题中,形成有关该主题的一个完整一致的描述。 数据仓库是集成的数据进入数据仓库之前,必须经过加工与集成 对不同的数据来源进行统一数据结构和编码。统一原始数据中的所有矛盾之处,如字段的同名异义,异名同义,单位不统一,字长不一致等。将原始数据结构做一个从面向应用到面向主题的大转变。 数据仓库是不可更新的数据仓库中的数据是经过抽取而形成的分析型数据,不具有原始性,主要供企业决策分析之用,执行的主要是‘查询’操作,一般情况下不执行‘更新’操作。但这也不等于数据仓库中的数据不需要‘更新’操作。在需要进行新的分析决策时,可能需要进行新的数据抽取和‘更新’操作数据仓库中的一些过时的数据,也可以通过‘删除’操作丢弃掉。 数据仓库是随时间变化的 数据仓库与数据挖掘的联系和区别。按PPT 数据仓库和数据挖掘是相互结合起来一起发展的,二者是相互影响、相互促进的。二者的联系可以概括为以下几点:(1)数据仓库为数据挖掘提供了更好的、更广泛的数据源(2)数据仓库为数据挖掘提供了新的支持平台(3)数据仓库为更好地使用数据挖掘工具提供了方便(4)数据挖掘为数据仓库提供了更好的决策支持(5)数据挖掘对数据仓库的数 据组织提供了更高的要求(6)数据挖掘还为数据仓库提供了广泛的技术支持。 数据仓库与数据挖掘的区别:(1)数据仓库是一种存储技术,它的数据存储量是一般数据库的百倍,它包含大量的历史数据、当前的详细数据以及综合数据,能为不同用户的不同决策需求提供所需的数据和信息;数据挖掘是从人工智能机器学习中发展起来的,研究各种方法和技术,从大量的数据中挖掘有用的信息和知识。(2)数据仓库与数据挖掘都是决策支持新技术。但它们有着完全不同的辅助决策方式。(3)在数据仓库系统的前端的分析工具中,数据挖掘是其中重要工具之一。它可以帮助决策用户挖掘数据仓库的数据中隐含的规律性。 (第二章) 数据仓库概念结构、总体层次结构及其结构模式。(图P26描述) 从数据仓库的概念结构看,应该包含数据源、数据准备区、数据仓库数据库、数据集市/知识挖掘库以及各种管理工具和应用工具。(2)总体层次结构 a)数据仓库的基本功能层应该包含从数据源抽取数据,对所抽取的数据进行筛选、清理,将清理后的数据加载到数据仓库中,根据用户的需求设立数据集市,完成数据仓库的复杂查询、决策分析和知识的挖掘等功能。B)数据仓库的管理层包含数据管理与元数据管理两部分。数据管理与元数据管理主要负责对数据仓库中的数据抽取、清理、加载、更新与刷新等操作进行管理。C)数据仓库环境支持层主要包含数据传输和数据仓库基础两大部分。这两大部分对于数据仓库的创建和使用来说是必不可少的,没有这两个数据仓库的支持环境,数据仓库的创建与使用是无法实现的。(3)其结构模式: a)数据仓库的自顶向下结构,投资回报周期比较长,见效慢,成本比较大 b) 数据仓库的自底向上结构,核心是通过独立开发的数据集市逐渐构建数据仓库。 投资回报周期比较短,见效快,成本比较小。 数据集市概念、结构及其特性。 数据集市(Data Marts)是指具有特定应用的数据仓库,主要针对某个具有战略意义的应用或者具体部门级的应用,支持用户利用已有的数据进行管理决策。 数据集市结构有独立数据集市和从属数据集市。 特点:(1)规模较小,灵活,可以按照多种方式来组织,如按特定的应用、部门、地域、主题等。(2)开发工作一般有业务部门主持定义、设计、实施、管理和维护。(3)能够快速实现,代价较低,投资回报期短,风险小。(4)工具集的紧密集成。(5)有利于进一步升级到完整的数据仓库或形成分布式数据仓库。 数据仓库系统的组成:P34 数据仓库、管理部分、分析工具。 数据仓库的数据组织。采用分级的方式进行组织。包括早期几节数据、当前细节数据、轻度综合数据、高度综合数据、元数据五部分。 粒度。 粒度是指数据仓库的数据单位中保存数据的细化或综合程度的级别。(2)细化程度越高,粒度级就越小;细化程度越低,粒度级就越大。(数据月详细,粒度就越小,级别就越低)粒度——细

文档评论(0)

sxty + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档