从Q1财报看新浪微博的窘境.pdf

  1. 1、本文档共7页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
大数据漫谈之多样性和混杂性 不能神化大数据是万灵药,也不能矮化大数据就是包装旧概念。本系列会剥开 大数据的每一个概念,追溯它的源头和发展过程,并给出个人的见解。在本篇 开始之前,首先就前文作一些补充说明: 1.大数据是一种新的数据形态和实践,它与当前主流的数据应用实践并 存,而非取代。而且,它在相当长的时间内仍然是个新鲜事物,即使年复合增 长率高达32%,到2016年全球大数据技术和服务市场总额也就是240亿美金左 右(IDC在2012年底的预测)。不切实际、一窝蜂地上大数据项目不应鼓励。明 明不算大数据,要装成有,偏要削足适履上马Hadoop和NoSQL,更不足取。 2.大数据也是一种战略、世界观和习惯。即使今天没有大体量的数据,还 是可以尽可能自觉、客观、全面地测量世界,为未来的大数据实践做准备。对 于一个企业或系统来说,挑战在数据采集,而非存储。微信在设计之初就把数 据监控精细化,并纳入基础框架,这是意识和实力的体现。有多少公司像彭博 社那样“如饥似渴”地采集数据?它能够雇佣一个卫星每周对位于俄克拉何马 的美国最大原油储备库拍照,根据油罐浮动顶的阴影长度来判断原油储备量的 变化。成功者有成功的必然性。 3.“数据即价值”的价值观早已存在,Value不是大数据专享的属性,小 数据照样有大价值。大数据的功劳在于唤醒大家的意识和觉悟。同样,从数据 中发现价值的实践也由来已久,横跨数据库、统计学和机器学习交叉学科的数 据分析是大数据分析的基础,但传统的数据分析实践是无法适应大数据的发展 的,这一点我会在分析这一部分中细谈。 总之,不能神化大数据是万灵药,也不能矮化大数据就是包装旧概念。对 一部分人来说,大数据已经是个客观存在和竞争优势;对绝大多数人来说,大 数据可以是一种“从现在做起”的世界观,和未雨绸缪、决战未来的战略。本 系列确有为大数据推波助澜之意,但不会随波逐流兜售概念;相反,我会剥开 每一个概念,追溯它的源头和发展过程,并给出个人的见解。 正文: 上回说到对大数据大体量的界定,只有少数产业和企业能够对大体量感同 身受,对更多的憧憬者来说,大数据不是进行时,而是未来时。这让无数空有 一身Hadoop技艺的架构师和程序猿/媛扼腕太息。 且慢,听听微软研究院这位老哥的吐槽:根据微软和Yahoo的统计,所有 Hadoop任务放一起一平均,输入数据集的大小也就是十几个GB;即使是 Facebook,90%的任务数据集小于100GB。这这这?这又让言必称ZB的布道者 们情何以堪? 说来说去还是要回到大数据的定义上来。上回说IDC为业界巨擘摇旗呐喊 ZB时代,旋即又用100TB作为大数据的门槛。其实,100TB不是故事的全部。 这次好好摆一摆IDC对大数据的界定。IDC高手论道,一张图搞定: 它的三步界定法是这样讲的: 1.三个数据源场景:数据要么不小于100TB,要么来自于超高速的数据 流,或者年增速大于60%。这三者是OR的关系,满足其一即可。这下好,很多 中小企业可以进入大数据的候选队伍了。王侯将相,宁有种乎?数据少但速度 可以快,基数小但增速可以大,只要秉持自觉、客观、全面测量世界的大数据 观。 2.无论你有哪种或哪几种数据,必须部署在可动态适应的基础设施 (dynamically adaptable infrastructure)上。IDC专门强调,此基础设施并 非一定要水平扩展架构(scale-out infrastructure),传统的scale-up架构也 行。更重要的是,这个新名词把基于云的基础设施也包括了进去。要做大数据 并非一定要自己部署Hadoop或NoSQL,把基础设施的事情留给云,自己专心从 数据里提炼价值,不亦乐乎?有了Amazon AWS,四个人就可以做一个大数据初 创企业Prismatic。 3.第三步两个数据部署场景:部署中必须有不少于两个的数据格式或数据 源,或者高速流数据源(如点击流或机器产生的数据流)。 好吧,不用执念于Volume了,我们接着这第三步讲Variety。 自道哥(Doug Laney)开立“三V经”伊始,Variety在大数据五个大V(前 几天某人又提了第六个V,Viability,以后再表)排名老三,为什么Variety 拿到系列第二篇讲呢? 在下不是百晓生,自然不敢乱排座次。虽然在下确实自赋过顺口溜一句: “大(Volume)、杂(Variety)、快(Veloc

文档评论(0)

吉吉文档 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档