- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Data To The People 我们为什么要进行数据分析
本文作者:GrowingIO联合创始人 吴继业
数据像水一样,而水滋润万物,帮助万物生长。GrowingIO 这个名字诠释了生长,数据和循环。
我希望数据能像水一样在企业内部流动,可以帮助到每个人。Data to the people。
一、为什么要进行数据分析?
我毕业的时候,正好赶上了数据仓库迅速发展的好时候,大学的时候喜欢数据库,很自然的就入了这行。入行后我发现企业有很多的数据孤岛,很多的数据不能统一在同一个地方以供分析。我的工作就是将不同数据源的数据整合起来,设计数据仓库模型,开发数据处理、数据清洗的任务,定时调度ETL(数据抽取,数据转换,数据装载)的任务,制作报表,准备数据挖掘的Training数据。 这些数据准备的工作都是为了解决以下这些问题。
“公司有堆积如山的数据,可是就是不能访问。” “我们需要以各种方式随心所欲地切割数据。” “如何让业务人员能够简单快捷地得到所需形式的数据?” “我只想看到最重要的内容,能指导我决策。” “为什么在开会的时候两个同样的指标,却相差如此之大,背后的计算逻辑到底是什么?” “我们希望员工用事实依据和数据来支持决策的过程!”“用历史数据来预测用户的倾向,从而增加转化率!”
二、数据驱动增长的亲身经历
曾几何时大数据这个词出现了,技术的发展是为了适应数据在这几年里疯狂的增长。我们不需要说明我们今天要分析的数据有多大。很多企业都有大量的数据。我们要解决的问题是可以多快的准备好数据并用于分析。新的技术不断涌现,storm, spark,tez,impala, presto, tajo, flink。
不变的什么?还是上面这些问题。
在LinkedIn 我们非常成功的解决了这些问题。Simon,我在Linkedin的领导,也是GrowingIO的创始人和CEO,有一个三年计划,第一年全面自动化,第二年数据挖掘,第三年全面用数据分析支持公司各大业务部门实现商业决策。最初三年里我们全面支持了LinkedIn的销售,产品,市场,运营和客服部门。我们做的数据分析内部网站每天都有很多的内部员工在用,一旦宕机立马被叫醒去修复。
离开LinkedIn的那天,一起工作过战斗过的同事为我们送别,我哭了,被团队感动了。
从LinkedIn出来,我发觉每个企业都需要数据处理和分析服务,我们用SaaS服务解决企业的数据采集,整合,清理,分析的问题,我们想把这个流程自动化,为企业提供云端服务。让互联网企业能够在几分钟内就可以分析自己的业务。
三、如何破解传统BI的弊端?
3.1 数据采集
数据采集,是数据分析的第一步。
互联网和移动互联网的数据是我们关注的重点。需要不不同的数据源同的技术手段去采集数据,比如网页端的,iOS和Android。目前大部分的数据采集的模式都是埋点采集的模式,就是需要什么数据点就埋什么数据点。往往存在的问题是业务人员和分析师定义要什么样的数据,然后由程序员来埋点实现。
程序员的主要职责是负责开发产品的功能与埋点做数据监控,但埋点不是他们工作的重点, 业务人员和分析师的工作重点是关心产品的用户体验,而不是像技术人员那样改代码埋点。
GrowingIO想推出的SAAS服务可以帮助业务人员直接在网页端,移动应用端上面定义数据点,而且立刻就能看到具体的浏览量和点击量。
3.2 数据整合
在很多互联网企业里,数据是分散存储的,但又是有紧密联系的, 搜索系统,订单系统,数据推荐系统,站内私信系统,聊天系统,库存系统,物流系统,售后服务系统,可能不在一个数据库中,是不同的Rest API、存储策略、数据源。如果让数据封闭在独立的系统中,不能和其他的数据整合进行数据分析,就不能知道企业数字化运营的全局,当然很多企业的管理者可以在高速成长期用拍脑袋来运营,然而在如今竞争激烈的“互联网+” 时代,数据零散的分布会导致企业的生产力下降。
数据的快速增长和复杂性的提高,对数据的实时整合的要求也越来越高。如果可以接近实时地抽取数据,加上整合和企业相关的外部数据才能把企业的数据盘活,分析总体的情况,提取出高价值,为决策者服务。
3.3 数据清理
一切对数据的测量都需要有高质量的数据做保障,这个很重要,我觉得我工作中的50%以上的时间花在了数据质量上面。业务端,老板觉得转化率低了要查,高了也要查,每次询问,开始是被动地查,后来成主动地查,将来需要自动地查。人肉被动,主动,机器自动。每次查数据质量都是要追溯到数据源头。看master data(例如统一的客户信息,产品信息等),看transaction data(比如订单明细数据),验证业务指标的计算逻辑。逐步验证自己的假设,在一家公司做的久了,对数据熟悉了,对业务熟悉了,这样的事情才会做的有效率,
文档评论(0)