- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据仓库跟数据挖掘概要
* * 数据仓库与数据挖掘 基本概念 数据仓库定义 数据仓库是一个面向决策主题的、集成的、时变的、非易失、以读为主的数据集合。 数据仓库系统的分类 Web数据仓库;并行数据仓库;多维数据仓库;压缩数据仓库等。 OLAP定义 OLAP是针对某个特定的主题进行联机数据访问、处理和分析,通过直观的方式从多个维度、多种数据综合程度将系统的运营情况展现给用户。 面向决策主题的 数据仓库围绕一些主题,排除对于决策无用的数据,提供特定主体的简明视图。 集成的 构造数据仓库是将多个异种数据源集成在一起,确保命名约定,编码结构,属性度量等一致性。 时变的 数据存储从历史的角度提供信息.在数据仓库,隐式或显式地包含时间元素。 非易失的 数据仓库总是物理地分离存放数据;由于这种分离,数据仓库不需要事务处理,恢复和并发控制。通常数据仓库只需要两种数据访问:数据的初始化装入和数据访问。 以读为主的 数据仓库中的数据主要是提供决策进行查询,一般不一定都需要即时更新,可以定期刷新或按需刷新。 数据仓库基本特性 数据仓库项目流程管理及系统性能管理和监控 OLTP 数据源 数据仓库 数据集市 数据采集及整合 数据的映射规则、模型 。。。 (元数据管理) 数据展现及决策 生产 财务 结算 外部 地区 分析 总量 分析 市场 分析 E T L 数据分析、DM 终端用户 终端用户 数据仓库体系结构 数据仓库的结构 早期细节级 当前细节级 轻度综合级 数据集市 高度综合级 元数据 操作型转换 数据仓库中的几个重要概念 ETL ETL(Extract/Transformation/Load)—用户从数据源抽取出所需的数据,经过数据清洗、转换,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。 元数据 关于数据的数据,指在数据仓库建设过程中所产生的有关数据源定义、目标定义、转换规则等相关的关键数据。同时元数据还包含关于数据含义的商业信息。 Data Mart 数据集市 -- 小型的,面向部门或工作组级数据仓库。 Operation Data Store 操作数据存储 — ODS是能支持企业日常的全局应用的数据集合,是不同于DB的一种新的数据环境, 是DW 扩展后得到的一个混合形式。四个基本特点:面向主题的(Subject -Oriented)、集成的、可变的、 当前或接近当前的。 粒度 数据仓库的数据单元中保存数据的细化或综合程度的级别。细化程度越高,粒度级就越小;相反,细化程度越低,粒度级就越大。 分割 结构相同的数据可以被分成多个数据物理单元。任何给定的数据单元属于且仅属于一个分割。 数据仓库中的几个重要概念 (续) 操作数据库与数据仓库的区别 操作数据库系统的主要任务是联机事务处理OLTP 数据仓库在数据分析和决策方面为用户提供服务,这种系统称为联机分析处理OLAP 基本数据模式 星型模式 日期维表 TimeID Day Month Year 销售事实表 TimeID ProductID RegionID Sales Quantity 产品维表 ProductID ProductName ClassID ClassName CategoryID CategoryName 地区维表 RegionD City Province Country 基本数据模式(续1) 雪花模式 销售事实表 TimeID ProductID RegionID Sales Quantity 日期维表 TimeID day Month 产品维表 ProductID ProductName ClassID ClassName 地区维表 RegionID City Province 月表 Month Year 类别表 ClassID Category ID CategoryName 省份表 Province Country 基本数据模式(续2) 多维模型 Cube(D1,D2,…, Dn , M1 , M2 , …, Mm ) 数据仓库的主要应用 信息处理 支持查询和基本的统计分析,并使用表或图进行报告。 分析处理 支持基本的OLAP操作,在汇总的和细节的历史数据上操作。 数据挖掘 支持知识发现,包括找出隐藏的模式和关联,构造分析模型,进行分类和预测,并用可视化工具提供挖掘结果. OLAP发展背景 60年代,关系数据库之父E.F.Codd提出了关系模型,促进了联机事务处理(OLTP)的发展(数据以表格的形式而非文件方式存储)。1993年,E.F.Codd提出了OLAP概念,认为OLTP已不能满足终端用户对数据库查询分析的需要,SQL对大型数据库进
您可能关注的文档
最近下载
- 离子交换法从氧化铜钴矿加压氨浸液中分离铜钴的研究.doc VIP
- 妙音博士儿童听说能力康复训练乐园软件用户使用手册.doc VIP
- 第二章物理常数测定法课件.ppt VIP
- 绍兴市工程师答辩实务题答案市政道路(桥梁).doc VIP
- 2024小学《道德与法治》教师职称考试模拟试卷后面附参考答案 .pdf VIP
- 老年认知障碍若干问题研讨题库答案-2025年华医网继续教育答案.docx VIP
- 2025年机场地勤面试题及答案.docx VIP
- GB50515-2010 导(防)静电地面设计规范.docx VIP
- 榆林市2025届高三年级第一次模拟检测(一模) 物理试卷(含答案).docx
- 武广客运专线列车运行图的编制.doc
原创力文档


文档评论(0)