黑天鹅与大数据预测.pdfVIP

  1. 1、本文档共4页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
黑天鹅与大数据预测

黑天鹅与大数据预测 Esri 中国 卢萌 纽约大学特聘教授纳西姆·尼古拉斯·塔勒布有一本代表性的著作《黑天鹅》, 认为未来发生的事情是纯随机的,人类要是根据过去的经验去对未来的事情进行 预测,那是完全不靠谱的,正如书名所表示的:在发现澳大利亚的黑天鹅之前, 17 世纪之前的欧洲人认为天鹅都是白色的。但随着第一只黑天鹅的出现,这个 不可动摇的信念崩溃了。黑天鹅的存在寓意着不可预测的重大稀有事件,它在意 料之外,却又改变一切。人类总是过度相信经验,而不知道一只黑天鹅的出现就 足以颠覆一切。 塔勒布还举出了一个简单的例子,如果一只火鸡,每天都去收集主人喂它的 饲料是多少,那么一定时间之后,它认为能够预测明天主人喂多少吃的给他,直 到平安夜的前一天晚上,还做出了第二天的预测,结果是第二天命运就突然发生 了重大的转折……这个转折,就是典型的黑天鹅事件。 这个事件看起来似乎很有道理,这只火鸡统计学家,统计了所有的信息,甚 至还可以收集到了他左邻右舍其他的火鸡的食物信息,做出了精确的分析和预测, 但是最后平安夜之前的那一刀彻底的改变了这个命运。 在以前的文章中,我曾经描述过大数据与小数据的区别,(见大数据与小数 据),如果从那篇文章上来看,火鸡统计学家,所收集到的一切数据,都算小数 据。 从目标上来看,他就是为了预测明天主人喂食的数量,而收集的数据,这个 是一个典型的为了解答某个问题而去收集特定的数据,不属于这个问题的数据, 他都不去关心。 好了,如果这只火鸡统计学家华丽丽的转身进化为火鸡大数据学家,那么它 收集的数据就不仅仅是喂食的数据了。他会去收集的数据就不会只针对这一个具 体的目标了。 它会去收集天气信息、地理信息、火鸡们的各种习俗、社交数据、LBS 信息、 火鸡祖宗十八代的生老病死、每类火鸡不同的生活环境……OK,看见了吧,这位 火鸡大数据学家,不需要进行具体的分析,也不需要详细的建模,只需要做很简 单的聚合,就会发现每年的平安夜之前,大量的火鸡的生命线戛然而止。它甚至 不用明白人类的习俗,也不用具体的去分析原因,数据自然就能揭示出这种规律。 假设这只火鸡大数据学家能够突破它既定的视野,从观测火鸡升华到能够观 测主人,能够有机会接入人类神奇的互联网,甚至能够上微博。那么他收集的数 据会更多,而且只需要观测类似于“美食”这样的标签,就会发现,火鸡存在的目 的,就是为了上餐桌…… 好了,我们的火鸡大数据学家,已经明白了它的宿命,那么怎么办呢?有没 有办法突破既定的命运呢?它高呼“我命由我不由天!”,”起来,不愿意做奴隶的 火鸡“……当然,我们都知道,自古圣贤都不得好死,也许这只火鸡会很快就被 和谐掉,也有可能被其他的火鸡当成巫师烧死…… 那么,作为一个有大数据思维的火鸡,他在无法改变社会的同时,应该如何 改变自己呢?继续从数据入手。 首先,他会在通过聚类分析,大量的数据中发现有一些离群点,也就是逃过 了平安夜之前那一刀的火鸡们,找到这些离群点之后,将他们作为重点观察目标。 它通过分析,知道火鸡的自然生命是5——6 年,那么再次筛选出能够逃过3 次平安夜的火鸡们,看看它们存在一些什么样的共同特征。 接下去,如果小数据情况下,这样的样本可能非常少,能三次逃过那一刀的 火鸡哪怕用凤毛麟角来形容也不为过;但是在大数据情况下,根据大数原则,只 要数据量只够多,再低的几率,都会产生大量的样本。 有这些样本,火鸡大数据学家就开始进行大数据挖掘分析了,比如将这些样 本的习俗特性进行分类,可以生成决策树,那么火鸡大数据学家,就能够根据这 些if 条件,来预言今年平安夜,有哪些火鸡有可能逃过一劫。 又如,进行关联分析,找出与被杀火鸡关联支持度最高的一些特征,这些频 繁项集都是被杀的先兆,所以它首先要改变自己的习惯,让自己避免有这些习性。 当然,任何预测和分析,都是有风险的,神通不敌天数……我们伟大的火鸡 大数据学家预测到了最后,但是气数已尽,非火鸡力所能改变,最终难逃一刀。 故事就这样结束了么?错!神通不敌天数,那好,天数还算不尽人(火鸡) 心呢!根据博弈论的原理,当对手知道了你的行动,那么就会做出对自己最有利 的绝定,所以这只伟大的火鸡大数据学家做出了一个决定:服!毒!自!杀!! 作为一个大数据学家,如果只是小小的老鼠药,就太丢份了,火鸡大数据学 家会收集大量的禽类和人类死亡和疫病信息,终于选择了H

文档评论(0)

xcs88858 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:8130065136000003

1亿VIP精品文档

相关文档