大數据的误区数据统计≠大数据.docxVIP

下载本文档

5
0
约3.75千字
约 10页
2016-11-27 发布于重庆
举报
版权申诉

大數据的误区数据统计≠大数据.docx

1、本文档共10页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

大數据的误区数据统计≠大数据

大数据的误区：数据统计≠大数据什么是大数据？百度百科对大数据的定义是这样的：大数据（big data）或称巨量资料，指的是所涉及的资料量规模巨大到无法透过目前主流软件工具，在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。 Gartner给出了这样的定义：“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。个人认为Gartner的定义更为贴切。“新处理模式”是一个很关键的词汇，这也是我所理解的“大数据”区别于传统统计分析等最关键的特征之一。这个所谓的“新处理模式”有两层含义： 1由于海量的数据，需要更高效的存储和处理技术，Hadoop成为了大数据时代的标志； 2如果你认为大数据就等于Hadoop，那就大错特错了。Hadoop只是大数据时代的一个必要条件，大数据还有一个明显的标志是数据挖掘和人工智能的紧密结合。这也是我理解的“大数据”与现在很多所谓“大数据”项目最明显的区别之一。除了上面的“新处理模式”上的区别，个人认为还有一个最主要的区别是：数据统计分析是基于已有数据的纵向归类，而大数据是基于对已有海量数据的处理，对还未产生的数据作出预测和推荐。数据统计是已经发生的事情，而大数据往往被用于还没有发生的事情预测或者推荐中。预测和推荐是如何实现的目前主要的推荐算法大致可以分为两类。一个是基于行为，一个是基于内容。当然，针对不同的领域，不同的预测和推荐的对象，又会有十余种算法。这就不是本文展开的内容了。基于行为的分析，顾名思义，即对用户在互联网、移动互联网留下的“痕迹”，即浏览、点击、收藏、购买、二次购买的分析，得出未来会选择购买的预测和推荐结果。基于行为的分析，属于群体智慧，综合利用群体用户的行为偏好。用户之间会相互影响，更加符合现实世界中的用户行为。图1、电商基于行为的推荐漏斗算法基于内容的分析，包括对文字、图片、音频、视频等信息的分析，得出预测和推荐的结论。内容的“基因”和用户的偏好相匹配，最有代表的是潘多拉的音乐推荐项目，其将曲库中所有歌曲都由400多位专家打上标签，然后建立个人与音乐的联系，从而完成音乐的推荐。内容的分析只针对个人，与用户之间关系无关。大数据到底能做什么现在谈这个问题可能会让大家笑话，似乎所有人都知道大数据能干这个，能干那个，最后连我们自己都觉得可笑。大数据已经都不是被“妖魔化”了，是“娱乐化”。大数据似乎是个离我们忽远又忽近的事物了，变得不真实起来。好吧，我还是结合从业经历来说说大数据“解决过什么问题”吧：简单地来说，大数据可以帮我们解决决策和选择的问题。天气预报就是一个最古老而且众所周知的预测。你可以根据预报来决定明天穿什么衣服，是否要带雨伞，等等；近两年来，大数据被应用到影视制片行业，基于对观众偏好的分析，去预测、设计观众喜欢的剧情，找观众喜爱的演员出演相关的角色，甚至可以去预测票房。这些所有的预测都是基于数据的基础上，经过一定的模型处理，得到接近真实的结论。从某种程度上给决策者决策的依据，比如《纸牌屋》和《星星》。大数据还有一个重要的作用，就是解决人们的“选择”问题。别笑，无论你的年龄、性别、教育背景，人们目前都面临着前所未有的选择问题。讲的学术一些，这是由于“长尾效应”导致的问题；讲得通俗一些，就是由于日益增多的可选择的对象和我们自身的处理能力之间的矛盾。科技的进步让人变得更懒，也就是我们自身的处理能力降低，无论是主观的还是客观的。而可被选择的对象却在日益增多。从纷繁复杂的商品（电商），到海量曲库中的乐曲；从婚恋网站的男女朋友，到交通管理的信号灯。基于人工智能下的大数据，就是可以使人们“变懒”的一个手段。基于你的历史行为，判断出你可能的喜好，乃至需求，将最佳结果，推荐给你。这就是大数据，她是你的贴心管家，或者说是最懂你的朋友。一个最经典的案例是沃尔玛曾经做过的“啤酒”和“尿布”调研：沃尔玛在研究中发现，一类顾客经常在购买尿布的同时也购买啤酒。尿布跟啤酒自然是毫无关联的两个品类的商品，从个人经验上来看，根本想不到二者的联系。后来发现，这是一类社会现象所导致的。美国有很多年轻夫妇，尿布用完后，女主人在家带孩子，而男主人就去超市买尿布。买完尿布之后，男主人通常会顺带着买些啤酒。上述例子说明，数据经常可以让你发现看似不合理不合逻辑但却存在，并且经常发生的现象。再举个例子，北京的交通拥堵是地球人都知道的事情。尤其是早晚高峰，这已经不需要预测了。但如果根据历史交通数据，再经过数学模型，计算出一个全北京最佳的交通信号灯管理系统，这就属于大数据的范畴了。图2、出租车每天的分布图这也是我眼中大数据主要与普通的数据统计分析最大的不同：数据统计可以帮助你发现疾病，但大数据