- 16
- 0
- 约2.93千字
- 约 5页
- 2016-09-10 发布于北京
- 举报
一周实现大数据可视化分析.doc
一周实现大数据可视化分析
当前,一提到大数据人们就会想Hadoop,它似乎成为大数据的“代言人”。不可否认,Hadoop在集群扩展性和成本上都有巨大的优势,但是,Hadoop并不适合做实时分析系统。
因此,很多企业都会利用Hadoop实现数据存储,再通过其他工具实现对大数据的高速捕获和实时分析。这里,我们将通过艾瑞咨询集团的一个真实案例,解读一下敏捷BI如何和Hadoop进行互补,帮助其实现互联网大数据分析的。
定制化项目效率低下
艾瑞咨询集团(iResearch)是一家专注于网络媒体、电子商务、网络游戏、无线增值等新经济领域,深入研究和了解消费者行为,并为网络行业和传统行业客户提供市场调查研究和战略咨询服务的专业市场调研机构。
目前,艾瑞咨询集团可以向企业提供线下报告和软件两种定制化咨询报告服务。但是,企业客户的定制化需求非常多变,艾瑞咨询集团生成一份线下报告交付周期需要3至4周,提供软件的交付周期则需要半年。再加上项目所需人工成本升高、迭代周期延长,艾瑞咨询集团往往不敢承接太多定制化项目。
通过调研,笔者发现了艾瑞咨询集团的真正需求:根据时间维度和网站汇总对用户的来源地区、来路域名、页面访问次数、停留时间、有效访问次数、跳出率、回访者、新访问者、回访次数和回访相隔天数等相关数据进行统计分析,并且还能够在动态添加条件之后,通过对监测用户行为获得的数据进行分析,以最终得出更加详细、清楚的用户行为习惯。
因此,艾瑞咨询集团迫切需要一种更加敏捷、高效的大数据分析工具提升定制化业务的效率。
大数据面前:敏捷BI PK传统BI
在解决艾瑞咨询集团面临的难题时,传统BI的做法是,IT人员事先根据需求分析进行建模,建好二次表或打Cube并提前汇总好数据,业务人员才能在前端查看到分析结果的报表。虽然这种做法很成熟,但是解决不了艾瑞咨询集团的难题。
首先,业务人员查看的报表相对静态,分析的维度和度量的计算方式已在建模时预先设定好,不能更改。例如,定好了求和或求平均数,再想改成求方差必须再去修改模型。
其次,分析需求变更时,业务人员不能直接调整报表,需要IT人员重新建模或修改已有分析模型,耗时较长,响应速度较慢。
最后,有些企业的数据量很小,也需要按照此流程和架构来进行大费周折的数据分析。
造成这些问题的本质原因是,过去的技术架构针对海量数据的计算能力不足,企业用户需要通过建模、二次表、Cube提前进行数据运算汇总。
艾瑞咨询集团希望为企业客户提交这样一份分析报告,不仅能看还能动态分析。对于艾瑞咨询集团来说,数据展现应该是起点而不是终点。看到了数据,要能交互式分析、深入向下挖掘,要能发现问题并找到答案,还要能采取行动。与数据交互的过程要足够快,如果用户每次点击需要等三五分钟才出结果,就无法进行交互分析。
并且,分析报告应能让非IT部门的同事直接在分析平台上做出来。不能把所有的分析报告需求都提交到IT部门,这样会严重增加IT部门的工作负担。同时,敏捷BI的实施和操作要简单化,让业务人员可直接使用。
同时,分析报告需求经常需要牵涉到数据层的改动,需要IT部门去改进数据层和业务层,传统BI平台需要一两个月才能完成模型梳理。敏捷BI无需事先建模,可以在分析过程中灵活调整分析维度和报表展现,需求变更可以在一天之内响应,提升企业的洞察力决策力。
与传统BI的重量建模、统一视图不同,敏捷BI采取轻量建模、N个视图的方法,不建二次表和Cube,数据导入后可以直接进行分析,并且业务人员可以实时调整分析的维度和度量的计算方式,极大地增加了灵活性,真正做到和数据对话。
既然有这么便捷的方式,为何传统BI不采用这种架构呢?那是因为,传统技术架构没有引入大数据技术,面对海量数据无法在用户点击后的几秒内就展现企业客户需要的分析结果,因此必须通过建模提前把数据汇总好,才能保证分析报表展现时的速度。
因此,实现敏捷BI的前提是采用新架构处理数据,其涉及的技术包括分布式计算、内存计算、列存储、库内计算等。敏捷BI可以通过更低的成本、更短的上线周期,快速让企业洞察到数据的含义和价值。
业务效率数倍提升
深入研究艾瑞咨询集团要分析的数据,笔者发现,艾瑞咨询集团每天要分析的数据量达几千万条,且不同企业客户的分析需求各不相同。因此,复杂多变的多维度分析需求对分析工具的分析性能提出了更高的挑战,而传统的数据库和Hadoop架构已经无法满足高性能和即时分析的需求。
为此,艾瑞咨询集团考察过国外一些知名的产品,但是当他们获知产品的价格和后续的服务费用之后只能放弃。而国内大多数的分析工具大多是上一代BI,需事先建模再进行分析,难以应对灵活的多维度分析变化需
原创力文档

文档评论(0)