- 1、本文档共46页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第二章数据仓库的分析第二章数据仓库的分析
数据仓库与数据挖掘 数据仓库与数据挖掘 第一章 数据仓库与数据挖掘概述 第二章 数据仓库的分析 第三章 数据仓库的设计与实施 第四章 信息分析的基本技术 第五章 数据挖掘过程 第六章 数据挖掘基本算法 第七章 非结构化数据挖掘 第八章 离群数据挖掘 第九章 数据挖掘语言与工具的选择 第十章 知识管理与知识管理系统 第二章 数据仓库的分析 2.1 数据仓库的需求分析模型 2.2 影响数据仓库成功的因素 2.3 数据仓库的生命周期 2.4 数据仓库的基本体系结构 2.5 数据仓库的逻辑结构 2.1 数据仓库的需求分析模型 2.1 数据仓库的需求分析模型 2.1 数据仓库的需求分析模型 第二章 数据仓库的分析 2.1 数据仓库的需求分析模型 2.2 影响数据仓库成功的因素 2.3 数据仓库的生命周期 2.4 数据仓库的基本体系结构 2.5 数据仓库的逻辑结构 2.2 影响数据仓库成功的因素 2.2 影响数据仓库成功的因素 第二章 数据仓库的分析 2.1 数据仓库的需求分析模型 2.2 影响数据仓库成功的因素 2.3 数据仓库的生命周期 2.4 数据仓库的基本体系结构 2.5 数据仓库的逻辑结构 2.3 数据仓库的生命周期 2.3 数据仓库的生命周期 不同与数据库开发的生命周期。 1、数据仓库开发是从数据出发的 从已有数据出发的数据仓库设计方法称为“数据驱动”的设计方法。 数据仓库的设计是从已有的数据库系统出发,按照分析领域对数据及数据之间的联系重新考察,组织数据仓库的主题。 “数据驱动”设计方法的中心思想是利用数据模型有效地识别原有的数据库中的数据和数据仓库中主题的数据“共同性”。 2、数据仓库使用的需求不能在开发初期明确确定 3、数据仓库的开发是一个不断循环的过程,是启发式的开发 2.3 数据仓库的生命周期 因此,开发过程是先实现数据仓库的一部分,然后经集成数据、检验偏差、针对数据编程、设计DSS系统、分析结果、理解需求而成。 第二章 数据仓库的分析 2.1 数据仓库的需求分析模型 2.2 影响数据仓库成功的因素 2.3 数据仓库的生命周期 2.4 数据仓库的基本体系结构 2.5 数据仓库的逻辑结构 2.4 数据仓库的基本体系结构 2.4 数据仓库的基本体系结构 2.4 数据仓库的基本体系结构 第二章 数据仓库的分析 2.1 数据仓库的需求分析模型 2.2 影响数据仓库成功的因素 2.3 数据仓库的生命周期 2.4 数据仓库的基本体系结构 2.5 数据仓库的逻辑结构 2.5 数据仓库的逻辑结构 2.5.1 数据仓库中的粒度 2.5.2 数据仓库中的数据分割 2.5.3 数据仓库中的数据组织 2.5.4 数据仓库中的快照 2.5.5 数据仓库中的元数据 2.5.1 数据仓库中的粒度 所谓粒度是指数据仓库的数据单位中保存数据的细化或综合程度的级别。细化程度越高,粒度就越小,级别也就越低;细化程度越低,粒度就越大,级别也就越高。 根据粒度的划分标准可将数据划分为当前细节级、轻度综合级、高度综合级三级或更多粒度。不同粒度级别的数据用于不同类型的分析处理。 2.5.1 数据仓库中的粒度 双重粒度级:指轻度综合数据级和真实细节数据级(最低粒度级)。 粒度的具体划分将直接影响数据仓库中的数据量以及查询质量。 (1) 数据粒度的划分 (2) 确定粒度的级别 (1) 数据粒度的划分 适当划分粒度的起点,是估算数据仓库中将来使用的数据行数和所需的直接存取存储设备(DASD)。 计算数据仓库所占的空间的算法: 第一步,估计数据仓库中需要建立的表数目,估算每个表的大致行数,通常需要估计行数的上、下限。索引的大小只与表的总行数有关,而不与表数据量有关。所以,粒度的划分是由总的行数而不是总的数据量决定的。 接下来,可对每个表估算其一年所需的存储空间。这是设计者所要解决的最大问题。 (1) 数据粒度的划分 计算每个表的存储空间,应该是每一个表的数据存储空间和索引存储空间之和。 精确计算表的每年实际存储空间往往是很难的,只能给出表的最大估算空间和最小估算空间。为此,需要估算每个表每年需要最多的行数和最少的行数,然后,估算出每行占用空间的最大字节数和最小字节数。 接着,计算索引数据所占的空间。每个表的索引存储空间,只要估算出键码的占用字节数与索引的行数,便可计算出来。 这样,每个表每年的存储空间就可以用表的存储空间与相应的索引空间之和表示。 然后估算其最长的保留年数所需要的存储空间。 (1) 数据粒度的划分 在计算出数据仓库所需要占用的存储空间之后,需要根据所需要的存储空间大小确定是否划分粒度?如果需要划分,又应该怎样划分? 数据仓库表中数据的总行数和相应的数据粒度划分方法可以参考下表。 (1) 数据粒度的划分 (2) 确定粒度的级别 在数据仓库中,需要考
您可能关注的文档
- 第三章关系数据库标准语言SQL1.ppt
- 第三章三种基本控制结构.ppt
- 第三章商品农药的一般分析方法.ppt
- 第三章企业合并会计.ppt
- 第三章中心对称图形(二)基础知识复习讲义.doc
- 第三章力的合成与分解习题课.ppt
- 第三章声音测试题(答案).doc
- 第三章复习题(参考).doc
- 第三章习题册参考答案.ppt
- 第三章微观经济学习题.ppt
- 第18讲 第17课 西晋的短暂统一和北方各族的内迁.docx
- 第15讲 第14课 沟通中外文明的“丝绸之路”.docx
- 第13课时 中东 欧洲西部.doc
- 第17讲 第16 课三国鼎立.docx
- 第17讲 第16课 三国鼎立 带解析.docx
- 2024_2025年新教材高中历史课时检测9近代西方的法律与教化含解析新人教版选择性必修1.doc
- 2024_2025学年高二数学下学期期末备考试卷文含解析.docx
- 山西版2024高考政治一轮复习第二单元生产劳动与经营第5课时企业与劳动者教案.docx
- 第16讲 第15课 两汉的科技和文化 带解析.docx
- 第13课 宋元时期的科技与中外交通.docx
最近下载
- Zkteco中控智慧万傲瑞达V6000_2.0.0用户手册(停车CS岗亭端).pdf
- 2023-2024学年江苏省淮安市清江浦区三校八年级(上)期中数学试卷.doc VIP
- 要拿我当一挺机关枪使用.docx
- 母婴三病培训.pptx VIP
- 管理信息系统题目_带答案.doc
- 《汽车侧面气囊和帘式气囊模块性能要求GBT+38795-2020》详细解读.pdf
- 初中班主任工作经验交流精美PPT课件.ppt VIP
- 探放水工考试卷及答案 .docx
- 【申论】公务员考试辅导·笔试系统讲义(2025国考版).docx
- 2023-2024学年江苏省淮安市盱眙县八年级(上)期中检测英语试卷(附答案详解).pdf VIP
文档评论(0)