- 1、本文档共10页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
BI学习报告
S5506-00
学 习 报 告
评分:
评分:
○试用报告 ○固定报告 ○临时报告
报告人
肖胜华
部门
资讯中心
报告日期
2012-04-25
引言
老板,你要这么多数据做什么?
假如你是一个商品零售公司的老板,你的公司很先进,已经实现了业务信息化,每一笔销售数据都保存在数据库中,日积月累已经保存了十余年的销售数据,上亿条销售记录。
这时如果我问你:“反正三年前的数据留着也拜拜占地方,耗费存储成本,索性把它们全删掉吧,这样不用买硬盘就能容纳新数据,如何?”
你会从容的接收我这个建议吗?
那么老板,你要这么多数据做什么?
是的,和我一样,你也已经隐约认识到数据的价值,这就是我们割舍不下历史数据的原因,就像任何一个现代化企业,甚至就像任何一个传统的票号,如百年老店般虔诚地保存着古老的数据,因为我们有直觉,我们的直觉告诉我们:这些数据有用!
但这仅仅是一种直觉,到底该怎样把这些占据大量存储空间的数据的价值挖掘出来,让这些数据从成本的消耗者变成利润的促进者?
这中间似乎缺少了某些环节。
定义
BI(Business Intelligence)是一种运用了数据仓库、在线分析和数据挖掘等技术来处理和分析数据的崭新技术,目的是为企业决策者提供决策支持。
BI是一个工厂:
BI的原材料是海量的数据
BI的产品是由数据加工而来的信息和知识
BI将这些产品推送给企业决策者
企业决策者利用BI工厂的产品做出正确的决策,促进企业的发展
这就是business intelligence,即商业智能——连接数据与决策者,变数据为价值。
BI应用的两大类别是信息类应用和知识类应用,其特征如下表所示:
BI初级应用模式
数据查询(Querying)
数据查询是最简单的BI应用,属于MIS系统遗产,虽然出身比较老土,但是目前仍然是决策者获取信息的最直接的方法。
如今,数据查询界面已经彻底摆脱了传统SQL命令行,大量的下拉菜单、输入框、列表框等元素甚至是鼠标拖拽界面将后台干苦力的SQL语句包装成一个妖艳无比的数据获取系统,而本质仍然没有离开数据查询的几大要素:
查什么
从哪儿查
过滤条件
展示方法
目前国外比较流行的数据查询应用已经完全释放了数据查询的灵活性,允许用户通过纯浏览器界面,以鼠标拖拽操作定义数据查询要素,并以报表和图表等多种方式展现数据。
报表(Reporting)
报表是国内最热衷的BI应用之一,这与报表在我国企事业单位中的历史地位是分不开的,我国的报表以其格式诡异、数据集中、规则古怪等特征著称于世,曾经让无数国外报表工具和BI工具捶胸顿足。
报表的两大要素是数据和格式,如果没有格式,则报表应用几乎等同于数据查询应用,可以说,报表就是将查询出来的数据按照指定的格式展现。
报表应用包含了报表展现和报表制作两大模块。报表展现就是让决策者看到报表,并允许决策者通过条件定义来选择报表数据,例如选择报表年度、部门、机构等等;报表制作面向报表的开发人员,其格式定义灵活性、数据映射灵活性、计算方法的丰富程度等均影响了BI报表应用的质量。
Microsoft excel不算是一个BI报表工具,因为excel没有连接数据源的能力,充其量是一个shread sheet。但是excel强大的格式功能让报表制作人员竞折腰,乃至到后来,几乎所有BI厂商都提供了面向microsoft excel的插件,通过插件,excel可以连接到BI的数据源上,摇身一变为BI报表工具,丑小鸭变天鹅。
BI高级应用模式
在线分析(online analytical processing,OLAP)
OLAP,即联机分析处理,是BI带来的一种全新的数据观察方式,是BI的核心技术之一。
我们知道,数据在数据库中是以数据表来存储的,比如某商店的小猴数据存储在如下所示的一张数据表中:
决策者希望知道的往往是分布、占比、趋势之类的宏观信息,比如下列问题:
北京地区的销售数量随时间的变化趋势?
哪种产品在2005年销售比2004年销售增幅最大?
2004年各产品销售额的比例分布?
面对这种需求,必须用SQL语句进行大量的SUM操作,每得出一个问题的结果,就需要SQL SUM。面对上面的7条记录,我们可以很容易的得出结果,但是当我们面对百万级甚至亿级的记录条数时,例如移动公司通话数据,每次SQL SUM都需要消耗大量的时间来计算,决策者经常是在第一天提出分析需求,等到第二天才能拿到计算结果,这种分析方式是“脱机分析”,效率很低。
为了提高数据分析效率,OLAP技术彻底打破以记录为单位的数据浏览方式,而将数据分离为“维度(dimension)”和“度量(measure)”:
维度是观察数据的角度,例如上面示例中的“销售时间”、“销售地点”、“产品”;
度量是具体考察的数量值,例如上例中的
文档评论(0)