BI技术方案介绍.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
BI技术方案介绍.ppt

* BI系统数据ETL处理流程说明 业务系统 接口层(DI) 仓库层(DW) 融合层(DB) 一级集市 多维表(OM\DM) 固定表(TM\TD) CUBE 前端展现 应用层(DA) 示例 * 目 录 数据仓库 OLAP ETL与数据质量 BI技术介绍 郭春选 2010-3-31 * 目 录 数据仓库 OLAP ETL与数据质量 * 什么是数据仓库 “数据仓库是一个面向主题的、集成的、随时间而变化的、不容易丢失的数据集合,支持管理部门的决策过程.”—W. H. Inmon 数据仓库的数据是面向主题:典型的主题领域:客户;产品;交易;帐目 数据仓库的数据是集成的:异构数据、数据提取、净化、转换、装载、编码统一 数据仓库的数据是不可更新的:数据仓库的数据通常是一起载入和访问的,但并不进行一般意义上的数据更新 数据仓库的数据是随时间不断变化的: 数据仓库中的时间期限要远远长于操作型系统中的时间期限(5~10年); 数据仓库中的数据是一系列某一时刻生成的复杂的快照; 数据仓库的键码结构总是包含某时间元素。 * 为什么要建独立数据仓库 术业有专攻,各类系统分工不同 DBMS(DataBase Managment System )是为OLTP(On-Line Transaction Processing )而设计的:存储方式,索引, 并发控制, 恢复,目前在电信中,DBMS主要负责业务支撑。 数据仓库是为OLAP(On-Line Analysis Processing )而设计:复杂的 OLAP查询, 多维视图,汇总,电信企业有海量的历史数据,需要总结历史经验,为企业更好的服务。 数据来源、应用与处理方式不同 历史数据: 决策支持需要历史数据,而这些数据在操作数据库中一般不会去维护 数据汇总:决策支持需要将来自异种源的数据统一(如聚集和汇总) 数据质量: 不同的源使用不一致的数据表示、编码和格式,对这些数据进行有效的分析需要将他们转化后进行集成 我的E家ARPU真的这么高?小X,确认一下! 是啊,真这么高?请支撑中心提数据分析下…… CRM系统提供E家档案…… 计费系统提供E家收入…… 财务部提供E家成本…… CRM和计费的E家档案有差异!以哪个为准? 南京不分档,南通分档,全省分还是不分? 财务不知道哪些成本是E家的………… * 数据孤岛 口径不一致 数据驱动 数据仓库 经营分析系统 合作服务方分析 服务质量分析 营销管理分析 数据业务分析 客户情况分析 业务发展分析 收益情况分析 市场竞争分析 大客户分析 统计中心 通过数据仓库的建设把不同系统中的口径统一化,通过 KPI、OLAP、固定报表等一系列基础统计应用建设,有效解决了数据分裂和口径的问题,为决策层提供数据支撑。 为什么要建独立数据仓库 * 一些关键知识点 ETL: ETL(Extract/Transformation/Load)—用户从数据源抽取出所需的数据,经过数据清洗、转换,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。 粒度 是指数据仓库的数据单位中保存数据细化或综合程度的级别,粒度问题是数据仓库的一个最重要概念。粒度的具体划分将直接影响到数据仓库中的数据量以及查询质量。数据仓库的数据单位中保存数据的细化或综合程度的级别。细化程度越高,粒度级就越小;相反,细化程度越低,粒度级就越大。 元数据 关于数据的数据,指在数据仓库建设过程中所产生的有关数据源定义,目标定义,转换规则等相关的关键数据。同时元数据还包含关于数据含义的商业信息。 分割 指将数据分散到各自的物理单元中去以便能分别独立处理,以提高数据处理效率。分割后的数据单元称为分片(区)。任何给定的数据单元属于且仅属于一个分割。 * 数据仓库的数据粒度结构 数据仓库的数据级别(粒度) 早期细节数据:存储过去的详细数据,反映真实的历史情况,这类数据随着时间增加,数据量很大,使用频率低,一般存储在转换介质中。(例如磁带中) 当前细节数据:存储最近时期的业务数据,反映当前业务的情况,数据量大,是数据仓库用户最感兴趣的部分。随着时间的推移,当前细节数据由数据仓库的时间控制机制转为早期细节数据。 轻度综合数据:从当前基本数据中提取出来,通常以较小的时间段(粒度)统计而成的数据,其数据量较细节及数据少得多。 高度综合数据:这一层的数据十分精炼,是一种准决策数据。 * 数据仓库建设方法-自顶向下 建造企业数据仓库 建设中心数据模型 一次性的完成数据的重构工作 最小化数据冗余度和不一致性 存储详细的历史数据 从企业数据仓库中建造数据集市 得到大部分的集成数据 直接依赖于数据仓库的可用性 问题 投资效益的时间? 建设中心数据模型的必要性和可能性? 初始费用 ? 数据集市 外部数据 数据集市 操作数据 企业

文档评论(0)

yuzongxu123 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档