BI_Introduction资料.ppt

  1. 1、本文档共51页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
BI/DW Introduction 程序=算法+数据结构 OO Design Workflow 笑一笑 数据仓库初学者:数据仓库与数据库有什么区别? BI/DW的引出 统计报表需求 数字越来越重要 报表越来越多 效率越来越差 数据仓库的定义 影响数据仓库的几个人物 Bill Inmon - 《数据仓库》 Ralph Kimball - 《数据仓库工具箱》 Bernard Liautaud - 《商业智能》 OLTP与数据仓库系统 BI系统建设方法 (1) 直接建立BI应用 BI系统建设方法 (2) 企业数据仓库体系架构 典型物理架构 企业数据仓库的目的 数据整合--建立一个企业统一的信息平台 建立统一的业务数据定义 建立唯一的统计分析数据源 快速访问—采用适合企业BI应用的数据组织方式 新需求的开发快 数据获取的效率快 建设数据仓库的主要任务 数据仓库建模 ETL 前端展现组 数据挖掘 元数据 数据仓库引擎 NCR Teredata ORACLE 9以上 DB2 EEE Sybase IQ MS SQL Server 维模型的设计 仓库底层设计考量(一) 慢速变化维问题 仓库底层设计考量(二) 粒度问题 仓库中间层设计考量 基于用户标识 多个粒度汇总 综合各个数据集市 效率考虑 仓库集市层设计考量 面向应用 报表集市 挖掘集市 主题集市 KPI集市 维模型 以最细粒度数据为主 表加物化视图 数据仓库与数据集市 设计技巧 星型还是雪花? 组合代理键 慢速变化维 维度的不同层次处理 聚合表的设计 …. ETL过程 源表结构 -- 目标结构 工具?自己编码?--业务逻辑的任务已经很大 实时任务和批量任务 CDC的处理 ODS的处理? 数据源 大数据量 变化数据 关联数据 手工数据 数据源考量-大数据量 二十余种清单 上万个文件,大小不一 一天几十GB的数据 数据源考量-变化数据 实时变化 未存历史 数据源考量-关联数据 没有transaction 几个文件不一致怎么办? 数据源考量-手工数据 外部录入? OLTP系统? 天气 社会指标 集团客户信息 操作型CRM 数据源考量-历史数据更新 修改昨日数据 批错价/延迟话单等 ETL 抽取/转换/加载 源数据的理解 加载时间4小时 ETL实现 工具 Loader 汇总(数据库汇总还是文件汇总) 调度 ETL-调度 一天几十GB的数据 并行度/任务大小/资源/优先级 调度 清单类(大数据量)-文件的拆分和合并/实时处理 业务类(实体之间的关系复杂)-稽合 帐务类(数据准确)-验证 参数类(变化影响其他实体)-告警/事先处理 其他任务 月末处理 前端展现 固定报表 多维分析 即席查询 仪表盘 数据挖据 仪表盘 OLAP分析 报表,即席查询 固定报表 格式灵活多变 Crystal Report MSTR Brio ReportNet 多维分析 MOLAP -- Cognos PowerPlay,Hyperion Essbase ROLAP -- BOE, MSTR HOLAP -- BO -- MS OLAP 切片 旋转 切块 钻取 OLAP分析 多角度、多层次对同一主题进行分析 通过旋转、钻取、切片等技术探察数据 旋转:按不同顺序组织各个维,对结果进行考察 钻取:在一个维内部沿着从高到低或从低到高的方向考察数据(有上钻和下钻两种) 切片:在确定某些维数据的情况下对其他维进行观察 有MOLAP、ROLAP、HOLAP三种实现方式 OLAP设计-指标还是维度 即席查询 语义层 效率很关键 BO语义层 仪表盘 仪表盘、KPI---EPM 整合了企业的整个绩效、把告警、报表、分析穿在了一起 BO EPM Hyperion BPM 数据挖掘 机器学习 数理统计 数据库 预测、特征分析、客户分类 SAS\SPSS 数据挖掘实施的体系结构 元数据管理 什么是元数据? 元数据和开发文档有何区别? 为什么单单在数据仓库中如此重视元数据? 元数据管理(续) 业务元数据 业务元数据用业务名称、定义、描述和别名来表示数据仓库和业务系统中的各种属性,直接供业务分析人员使用。 技术元数据 技术元数据描述了数据源、数据转换、抽取过程、加载策略以及目标数据库的定义等。 元数据管理(续) CWM 1.0 数据源 ETL 数据仓库 数据集市 OLAP CUBE 元数据管理(续) 能分析什么? Where Used Depends On 事先还是事后? 自动化修改? BO(CR) Hyperion(Brio) Cognos Microstrategy 客户数 通话时长 性别 年龄 长途类型 通话时段 客户数 通话时长 长途类型通话时长 通话时段通话时

文档评论(0)

cc880559 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档