《拥抱大数据:大数据的概念及使用场景.docxVIP

《拥抱大数据:大数据的概念及使用场景.docx

  1. 1、本文档共8页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
《拥抱大数据:大数据的概念及使用场景

拥抱大数据:大数据的概念及使用场景近几年,大数据这个概念已经被炒的甚嚣尘上。似乎大数据是一个无比高深的话题,碰巧,笔者在大学的研究方向就是和大数据相关的人工智能,而且也有很多朋友是在大型视频网站团购网站等互联网公司从事大数据相关工作,所以在这里就给大家介绍一下大数据的概念。当然,我们不会去解释大数据相关技术(CF协同滤波,MapReduce,DeepLearning等等),毕竟读者们不太可能会去自己编写大数据的程序。我们只从应用角度,给大家讲讲大数据的概念以及应用方式。希望大家看完这一章后,可以知道,在自己的领域,可以怎样用大数据的理念和方法,来提高效率。  大数据是什么?  虽然大数据听着是一个很高科技的词儿,其实它早就渗透到你我的生活中,比如,你每天在网上看视频时,视频网站推荐给你的视频就是基于大数据。当你在淘宝购物时,网页边栏推荐给你的也是基于大数据。要说明白大数据,首先我们要从一个大家都熟悉的简单概念说起,那就是:数据分析。“数据分析”是一个现代词汇,但是利用数据分析的结果来指导行动,却是古往今来一直都有的一个理念。网上有一段子:  林彪带兵打仗的时候,有个特别的习惯,那就是每次战斗结束后,都要用小本子记下所缴获的武器种类、数量等数据,乐此不疲。大家对此都不以为意。  有一天,在又一次遭遇战后,士兵在给他念缴获的武器数量时,他突然叫停,然后兴奋地指出,这次遭遇战很可能遇到的是敌人的指挥部队。原因是,这次缴获的小枪与大枪的比例高于普通的战斗,小车与大车的比例以及军官与士兵的比例也都高于平均,因此他得到了这个结论。  在这个数据的指导下,部队一鼓作气,追击逃脱的部队,成功的把敌人的指挥官抓获。  如果这个故事属实,那么这个可能是笔者知道的最早的基于严谨的数据分析来指导行为的例子。进入现代以后,人们对数据的分析应用就更加频繁。企业在做战略规划的时候要进行数据分析,公司在做营销推广方案时也要做数据分析。那么, “大数据”和前面说的 “数据分析”之间有什么关系和区别呢?  从粗犷到细致  我们知道,数据分析需要有几个步骤:采集、统计、分析,而数据的总量直接和采集相关。在互联网兴起之前,人们采集数据的方式无外乎是人为观察和记录,当然,后期也有利用传感器来辅助记录。但是,互联网技术近几年的发展,却使得数据的采集水平记录达到一个史无前例的高度。在互联网时代之前,人们只能统计到一些基础的用户信息:年龄,住址,电话,婚姻状况等。到了互联网时代,我们可以收集到一个用户手机上装有什么应用,喜欢上什么网站,购物记录,在某个页面上停留了多久,鼠标在页面什么位置点击。而移动互联网时代的来临,使得更多动态数据可以被采集,比如用户的 睡眠时间、运动量、位置、在商场内的移动路线、打车次数、心率等等信息。这些数据最终汇聚在一起,形成了一个非常庞大的数据库。  以林彪带兵打仗为例,假设他的小本子有500页,每页上记满1000个字,正反两面都写,那么总的数据量也就约=2M。这个和互联网时代动辄上T上P的数据量比,基本上是小巫见大巫。(1P约=1000T,1T约=1000G,1G约=1000M,一个大型视频网站1秒钟就能产生几百M的用户数据)。这些数据海量数据的集中,就形成了“大数据”的最重要的一个特征:多维度的、细致的、海量的数据。  注:“海量”并不是大数据的必要条件,它更多是因为数据的维度多,粒度细,而导致的数据量的增大。 从统计到预测  得益于先进的机器学习算法,使得我们对大数据的使用,从统计一个数据结果,到利用结果和特性来推断一个人可能进行的行为。  《BigData》一书中提到一个很有意思的例子:一个父亲突然收到一个百货公司发给他的关于婴儿用品的传单,这个父亲非常愤怒,因为他的女儿才只有16岁?但是,过了几天后,他却上门道歉,因为,经过和他女儿细聊,发现他的女儿确实怀孕了。  那么,百货公司是如何预测一个人的行为呢?像上文所说,通过互联网,我们可以采集到大量用户的种种信息,包括固定的属性,和一些已有的行为;比如最近买了什么。经过对采集到的数据分析,发现购买婴儿用品的人有如下特征:年龄范围在14~40、买婴儿用品前几个月购买大量酸味食品,等等等等。那么,得到这个结论后,再来一个有类似特点的顾客,百货公司就可以猜测,她可能在未来一段时期内,对婴儿用品感兴趣。于是便向其发送对应的广告。  再比如,智能推荐广告:视频网站经过统计发现,点击了啤酒广告的人,有如下特点:看体育类战争类视频较多,看韩剧较少。那么很显然,下次再有啤酒广告时,把它们投给这样的用户就更有效一些。  注:上面举的这两个例子,只是为了形象的说明大数据预测是怎样运作的。在实际应用中,大数据分析引擎要分析的属性比这个细致的多,使用到的算法也比这个复杂的多,而且得到的很多结论,往往是没有直观的物理

文档评论(0)

xiayutian80 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档