大数据的思维误区与价值纬度.doc

下载文档

1
0
约7.58千字
约 9页
2017-02-10 发布于北京
举报
版权申诉
保障服务

大数据的思维误区与价值纬度.doc

1、本文档共9页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

大数据的思维误区与价值纬度

大数据的思维误区与价值纬度?by 吴甘沙 2014-04-26?199IT-互联网数据中心本文为“泰山会”微信群线下沙龙速记稿，全文如下：分享嘉宾：吴甘沙，英特尔中国研究院首席工程师大家周末好，我是吴甘沙，在英特尔中国研究院工作。清华基于微博分析获得的大数据幸福指数发现人们周六最幸福，相信大家心情不错，因此今天不谈枯燥的技术。关于大数据的思维、理念、方法论已经被反复消费了，本来我想直接进入交互环节，继挺兄还是要求先有一部分规定动作，我就先自弹自唱几十分钟，既然是漫谈，也不见得扣题，说到哪里是哪里。各位有问题，我可以择时择机插入讨论。先说大数据思想的形成吧。自从人类开始文字和数字，数据就开始产生。就数据增长曲线而言，极小的初值确实要经历漫长的过程达到人类能感知的曲线拐点。谷歌前CEO埃里克·施密特曾给出了一个有趣的数据：从人类文明曙光初现到2003年一共产生的数据，只相当于2010年两天产生的数据量。而一旦越过拐点，“大数据摩尔定律”的滚滚铁轮下，指数效应爆发：最近两年产生的数据量相当于之前产生的全部数据量。在漫长的数据蓄水过程中，数学和统计学逐渐发展，人们开始注意对数据的量化分析，在人类进入信息时代以前这样的例子就不胜枚举。比如经济上，黄仁宇先生对宋朝经济的分析中发现了“数目字管理”（即定量分析）的广泛应用（可惜王安石变法有始无终）。又如军事，“向林彪学习数据挖掘”的桥段不论真假，其背后量化分析的思想无疑有其现实基础，而这一基础甚至可以回推到2000多年前，孙膑正是通过编造“十万灶减到五万灶再减到三万灶”的数据、利用庞涓的量化分析习惯对其进行诱杀。到上世纪50-60年代，磁带取代穿孔卡片机，启动了数据存储的革命。磁盘驱动器随即发明，它带来的最大想象空间并不是容量，而是随机读写的能力，这一下子解放了数据工作者的思维模式，开始数据的非线性表达和管理。数据库应运而生，从层次型数据库（IBM为阿波罗登月设计的层次型数据库迄今仍在建行使用），到网状数据库，再到现在通用的关系数据库。与数据管理同时发源的是决策支持系统（DSS），80年代演变到商业智能（BI）和数据仓库，开辟了数据分析——也就是为数据赋予意义——的道路。那个时代运用数据管理和分析最厉害的是商业。第一个数据仓库是为宝洁做的，第一个太字节的数据仓库是在沃尔玛。沃尔玛的典型应用是两个：一是基于retail link的供应链优化，把数据与供应商共享，指导它们的产品设计、生产、定价、配送、营销等整个流程，同时供应商可以优化库存、及时补货；二是购物篮分析，也就是常说的啤酒加尿布。关于啤酒加尿布，几乎所有的营销书都言之凿凿，我告诉大家，是Teradata的一个经理编的，人类历史上从没有发生过，但是，先教育市场，再收获市场，它是有功的。仅次于沃尔玛的乐购（Tesco），强在客户关系管理（CRM），细分客户群，分析其行为和意图，做精准营销。这些都发生在90年代。00年代时，科研产生了大量的数据，如天文观测、粒子碰撞，数据库大拿吉姆·格雷等提出了第四范式，是数据方法论的一次提升。前三个范式是实验（伽利略从斜塔往下扔），理论（牛顿被苹果砸出灵感，形成经典物理学定律），模拟（粒子加速太贵，核试验太脏，于是乎用计算代替）。第四范式是数据探索。这其实也不是新鲜的，开普勒根据前人对行星位置的观测数据拟合出椭圆轨道，就是数据方法。但是到90年代的时候，科研数据实在太多了，数据探索成为显学。在现今的学科里，有一对孪生兄弟，计算XX学和XX信息学，前者是模拟/计算范式，后者是数据范式，如计算生物学和生物信息学。有时候计算XX学包含了数据范式，如计算社会学、计算广告学。 2008年克里斯·安德森（长尾理论的作者）在《连线》杂志写了一篇《理论的终结》，引起轩然大波。他主要的观点是有了数据，就不要模型了，或者很难获得具有可解释性的模型，那么模型所代表的理论也没有意义了。跟大家说一下数据、模型和理论。大家先看个粗糙的图。首先，我们在观察客观世界中采集了三个点的数据，根据这些数据，可以对客观世界有个理论假设，用一个简化的模型来表示，比如说三角形。可以有更多的模型，如四边形，五边形。随着观察的深入，又采集了两个点，这时发现三角形、四边形的模型都是错的，于是确定模型为五边形，这个模型反映的世界就在那个五边形里，殊不知真正的时间是圆形。大数据时代的问题是数据是如此的多、杂，已经无法用简单、可解释的模型来表达，这样，数据本身成了模型，严格地说，数据及应用数学（尤其是统计学）取代了理论。安德森用谷歌翻译的例子，统一的统计学模型取代了各种语言的理论/模型（如语法），能从英文翻译到法文，就能从瑞典文翻译到中文，只要有语料数据。谷歌甚至能翻译克莱贡语（S