- 1、本文档共12页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
1 吴甘沙 大数据分析师的卓越之道
Intel 研究院院长吴甘沙:基础设施已
经改朝换代,大数据分析师的卓越之道
亲 爱的各位同仁,各位同学,早上好。大家可能还有些纳闷,本来是吴恩
达老师讲人工智能,怎么换吴甘沙讲。几个月前我刚刚跟吴老师在硅谷聊了一
两个小时,早知 道今天这样我多向他请教一下人工智能,现在还是讲一下我擅
长的大数据。讲到大数据,就要问数据分析师应该做什么?所以我今天的标题
是大数据分析师的卓越之 道。这里不一定讲的对,讲的对的我也不一定懂,所
以请大家以批评式的方式去理解。
这 是一个典型的数据分析的场景,下面是基础设施,数据采集、存储到处
理,左边是数据处理,右边价值输出。连接数据和价值之间的就是这知识发
现,用专业词汇 讲,知识就是模型,知识发现就是建模和学习的过程。问题来
了,进入到大数据的时代,这有什么变化呢?首先对数据变的非常大,大家就
开始说了,数据是新的原 材料,是资产,是石油,是货币,所以大家的希望值
也非常高,这个价值也希望抬的非常高。但是一旦大数据洪流过来,我们原有
基础设施都被冲的七零八落。所以 过去十几年事实上业界都在做大数据基础设
施,我怎么做大规模水平扩展,数据密集了怎么提高分布式操作性能,怎么把
磁盘山村化,我们就有闪存内存化,我们最 近从密集型又到计算密集型。所有
这些都是基础设施。
现在大家想基础设施升级了,我只是知识发现的过程是不是能自然升级?
我跟大家说天下没有免费的午餐。所以我想今天的主题是基础设施已经改朝换
代了,我们分析师也应该与时俱进,体现在三个:一个使思维方式要改变,我
们技术要提升,第三,我们分析的能力要丰富起来。
首 先,说一下思维方式。说改变思维方式最重要的就是改变世界观,这个
就是牛顿机械论世界。我们曾经听说过一个叫拉夫拉丝恶魔的说法。也就是
说,我如果在这个 时刻与宇宙当中所有的原子的状态都是可确定的话,就可以
推知过去任何一个时刻和未来任何一个时刻,这就是牛顿的机械论。所谓爱因
斯坦发展了这个物理学,但 是还是确定论,决定论,上帝不掷色子。但是今天
的世界事实上是什么样的?我们这个是说牛顿世界观,就是确定论。事实上今
天是不确定的,基于概率的世界观。 大家都看过所谓的(薛定论)的猫的思维
的实验。这个猫在盒子里到底是死还是活的,其实它可能同时是死的,也同时
是活的。但是一旦打开这个盒子,它就变成确 定了,它要么就是真的变成死
的,要么就是真的变成活的。也就是由我们现在所谓的好奇心害死猫,就是你
打开盒子有一半的概率把这个猫杀死。
这 个理念事实上反映的就是海森堡的不确定主义,就是你的行为会改变被
观测的现象,在大数据事实上也有测不准的,像 Google 流感的预测,这是大
家经常作为 数据分析的经典案例,具体细节不跟大家讲了,大家可以看在
2013 年 1 月份的阶段,橙色的线,Google 预计高于疾控中心它实际测到的流
感的概率。所以 科学和自然就发话了,自然是科学测不准,科学说这是大数据
的傲慢。在这个案例来,即使 Google 也拿不到全量的数据,你虽然有疾控中
心的数据和当中调整 模型等等的,但是还是不精确,你以为这种相关性就能解
决问题,但是健康的问题就是要究其原因,要有因果性。大家看这个预测的过
量就导致了预感疫苗准备的过 量。
所 以我们看数据的方法论我们需要升级。这是一个典型的数据分析的流
程,可以先由假设采集数据,也可以先采集了数据,然后从中发现假设。有了
数据以后下一步就 要做数据的准备,数据准备往往是最花时间的。然后分析,
分析完了要考虑怎么解释这个结果,大家知道做机器学习有两种:一种是给机
器看的,比如说我精准营 销;还有一种机器学习是给人看的,是要有可解释
性。有时候为了可解释性甚至愿意牺牲精确性。大家知道 Ficle ,它就是理论参
数,非常简单,可解释性非常 强。另外一个就是要验证,从我们传统说的随机
对照实验到现在 AB 测试,我们要去验证。但是到了大数据时代这个方法论要
怎么改变呢,首先我们说测不准,还有 不要相信看到的任何事,所以需要加一
个反馈循环,我们不停的反复做这个。这里虽然有很多噪声,但是这个是可以
处理的,还有一些是系统噪声,可能因为污染的 数据源,这个就要特别处理。
我们要数据分析需要实时、交互、要快,这样才能赶得及世界的变化,所以这
里需要很多很多的东西。
我现在一个一个跟大家分析一下。首先看假设。 我们现在说大数据思维是
说我们先有很多数据,然后通过机械的方法发现其中的相关性,之后再找到假
设。有时候相关性确实太多了,弱水三千只取一瓢饮,这里面 就需要我们的直
觉
您可能关注的文档
- [emuch.net]gcbi系列课程2-腾讯.pdf
- [腾讯健康]俞熔:做中国最大的健康服务“平台”.pdf
- 《大数据:抓住机遇 保存价值》.pdf
- 《狗日的腾讯:40多万个中小网站的消失》.pdf
- 《origin 8.0实用教程 科技作图与数据分析》【肖信】 中国电力出版社.pdf
- 《科技想要什么》(美)凯文·凯利【高清完整版】.pdf
- 《手把手教你用android开发新浪微博客户端》-------水的右边(安卓巴士整理).pdf
- 《药物与人》冬虫夏草(116p).pdf
- 《中学科技》1980年2期.pdf
- 《中学科技》1980年1期.pdf
- 中国行业标准 DB/T 100-2024区域性地震安全性评价.pdf
- 《GM/T 0138-2024C-V2X车联网证书策略与认证业务声明框架》.pdf
- GM/T 0138-2024C-V2X车联网证书策略与认证业务声明框架.pdf
- DB/T 100-2024区域性地震安全性评价.pdf
- 中国行业标准 GM/T 0138-2024C-V2X车联网证书策略与认证业务声明框架.pdf
- 校园周边书店阅读氛围对初中生阅读素养提升的影响研究教学研究课题报告.docx
- 初中校园餐饮卫生监管与食品安全教育创新模式研究教学研究课题报告.docx
- 《文化遗产保护与旅游开发平衡机制的法律法规完善研究》教学研究课题报告.docx
- 《农作物病虫害生物防治技术的经济效益与社会影响分析》教学研究课题报告.docx
- 1 剖宫产术后子宫瘢痕憩室治疗中的并发症预防与护理措施教学研究课题报告.docx
最近下载
- 药事管理学药品注册管理课件.ppt VIP
- 《肩袖损伤与肩周炎》课件.ppt VIP
- 2024年重庆市巴蜀中学初升高自主招生语文试卷真题(含答案).docx VIP
- 中介新房培训课件内容.ppt VIP
- 2024年重庆渝中区重庆市巴蜀中学自主招生数学试卷(初升高保送)(详解版).pdf VIP
- 2025年西藏自治区公务员录用考试面试真题试卷(结构化小组)题型分析.docx VIP
- 药品注册管理课件.ppt VIP
- 击剑基础理论知识单选题100道及答案解析.docx VIP
- 《未成年人保护法》课件ppt.pptx VIP
- (高清版)B-T 19363.1-2022 翻译服务 第1部分:笔译服务要求.pdf VIP
文档评论(0)