大数据核心应用.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

大数据预测(大数据核心应用)

大数据预测是大数据最核心的应用,它将传统意义的预测拓展到“现

测”。大数据预测的优势体现在,它把一个非常困难的预测问题,转

化为一个相对简单的描述问题,而这是传统小数据集根本无法企及

的。从预测的角度看,大数据预测所得出的结果不仅仅是用于处理现

实业务的简单、客观的结论,更是能用于帮助企业经营的决策。

11.预测是大数据的核心价值

大数据的本质是解决问题,大数据的核心价值就在于预测,而企业经

营的核心也是基于预测而做出正确判断。在谈论大数据应用时,最常

见的应用案例便是“预测股市”“预测流感”“预测消费者行为”

等。

大数据预测则是基于大数据和预测模型去预测未来某件事情的概率。

让分析从“面向已经发生的过去”转向“面向即将发生的未来”是大

数据与传统数据分析的最大不同。

大数据预测的逻辑基础是,每一种非常规的变化事前一定有征兆,每

一件事情都有迹可循,如果找到了征兆与变化之间的规律,就可以进

行预测。大数据预测无法确定某件事情必然会发生,它更多是给出一

个事件会发生的概率。

实验的不断反复、大数据的日渐积累让人类不断发现各种规律,从而

能够预测未来。利用大数据预测可能的灾难,利用大数据分析癌症可

能的引发原因并找出治疗方法,都是未来能够惠及人类的事业。

例如,大数据曾被洛杉矶警察局和加利福尼亚大学合作用于预测犯罪

的发生;Google流感趋势利用搜索关键词预测禽流感的散布;麻省

理工学院利用手机定位数据和交通数据进行城市规划;气象局通过整

理近期的气象情况和卫星云图,更加精确地判断未来的天气状况。

22.大数据预测的思维改变

在过去,人们的决策主要是依赖20%的结构化数据,而大数据预测

则可以利用另外80%的非结构化数据来做决策。大数据预测具有更

多的数据维度,更快的数据频度和更广的数据宽度。与小数据时代相

比,大数据预测的思维具有3大改变:实样而非抽样;预测效率而非

精确;相关关系而非因果关系。

31)实样而非抽样

在小数据时代,由于缺乏获取全体样本的手段,人们发明了“随机调

研数据”的方法。理论上,抽取样本越随机,就越能代表整体样本。

但问题是获取一个随机样本的代价极高,而且很费时。人口调查就是

一个典型例子,一个国家很难做到每年都完成一次人口调查,因为随

机调研实在是太耗时耗力,然而云计算和大数据技术的出现,使得获

取足够大的样本数据乃至全体数据成为可能。

42)效率而非精确

小数据时代由于使用抽样的方法,所以需要在数据样本的具体运算上

非常精确,否则就会“差之毫厘,失之千里”。例如,在一个总样本

为1亿的人口中随机抽取1000人进行人口调查,如果在1000人

上的运算出现错误,那么放大到1亿中时,偏差将会很大。但在全样

本的情况下,有多少偏差就是多少偏差,而不会被放大。

在大数据时代,快速获得一个大概的轮廓和发展脉络,比严格的精确

性要重要得多。有时候,当掌握了大量新型数据时,精确性就不那么

重要了,因为我们仍然可以掌握事情的发展趋势。大数据基础上的简

单算法比小数据基础上的复杂算法更加有效。数据分析的目的并非就

是数据分析,而是用于决策,故而时效性也非常重要。

53)相关性而非因果关系

大数据研究不同于传统的逻辑推理研究,它需要对数量巨大的数据做

统计性的搜索、比较、聚类、分类等分析归纳,并关注数据的相关性

或称关联性。相关性是指两个或两个以上变量的取值之间存在某种规

律性。相关性没有绝对,只有可能性。但是,如果相关性强,则一个

相关性成功的概率是很高的。

相关性可以帮助我们捕捉现在和预测未来。如果A和B经常一起发

生,则我们只需要注意到B发生了,就可以预测A也发生了。

根据相关性,我们理解世界不再需要建立在假设的基础上,这个假设

是指针对现象建立的有关其产生机制和内在机理的假设。因此,我们

也不需要建立这样的假设,即哪些检索词条可以表示流感在何时何地

传播;航空公司怎样给机票定价;沃尔玛的顾客的烹饪喜好是什么。

取而代之的是,我们可以对大数据进行相关性分析,从而知道哪些检

索词条是最能显示流感的传播的,飞机票的价格是否会飞涨,哪些食

物是飓风期间待在家里的人最想吃的。

数据驱动的关于大数据的相关性分析法,取代了基于假想的易出错的

方法。大数据的相关性分析法更准确、更快,而且不易受偏见的影

响。建立在相关性分析法基础上的预测是大数据的核心。

相关性分析本身的意义重大,同时它也为研究因果关

文档评论(0)

. + 关注
官方认证
文档贡献者

专注于职业教育考试,学历提升。

版权声明书
用户编号:8032132030000054
认证主体社旗县清显文具店
IP属地河南
统一社会信用代码/组织机构代码
92411327MA45REK87Q

1亿VIP精品文档

相关文档