logo

您所在位置网站首页 > 海量文档  > 计算机 > 计算机

大数据原理及技术.pptx 53页

本文档一共被下载: ,您可全文免费在线阅读后下载本文档。

  • 支付并下载
  • 收藏该文档
  • 百度一下本文档
  • 修改文档简介
全屏预览

下载提示

1.本站不保证该用户上传的文档完整性,不预览、不比对内容而直接下载产生的反悔问题本站不予受理。
2.该文档所得收入(下载+内容+预览三)归上传者、原创者。
3.登录后可充值,立即自动返金币,充值渠道很便利
特别说明: 下载前务必先预览,自己验证一下是不是你要下载的文档。
  • 上传作者 智慧IT(上传创作收益人)
  • 发布时间:2018-06-11
  • 需要金币250(10金币=人民币1元)
  • 浏览人气
  • 下载次数
  • 收藏次数
  • 文件大小:4.6 MB
下载过该文档的会员
你可能关注的文档:
大数据原理及技术; 最近几年,关于物联网,大数据,云计算,炒的沸沸扬扬。似乎随便2个节点之间能够实现通信就能称作物联网;只要数据足够大就称之为大数据;只要有数据足够大的计算就叫做云计算。;努力回忆下生活中的小场景吧!;1. 好友亲密度、qq空间、淘宝推送的东西等等~涉及到数据与数据之间的相互关系,而并不是因果关系(往往习惯于因果思维逻辑去思考和理解问题) 2.DT(分销商),可以设想一下,当淘宝下单20分钟就收到到货信息,该是一种什么样的体验。(其实你的信息,什么时候想要什么东西都已经被商户预测啦,已经提前将商品运往目的地。甚至你路过的广告屏,视频网站,包括使用的APP都将引导你消费。) 3.数据足够大就称呼其为大数据吗?(其实不然,关键在于其中承载的信息。数据处理之后才可以称之为信息或者叫做知识。其实大数据可以这样理解,当数据增长速度超过了计算机处理能力的增长速度,这时就产生了「大数据」问题,好比马车怎么也赶不上汽车,更别看汽车后备箱里面装了什么东西。当前流行的Hadoop等工具、MapReduce等方法有效地形成一套可以灵活扩展的解决方案,允许用空间(集群规模)换取时间(运算时间),通过良好地管理,集群的处理能力能够跟得上数据的增长速度,由此允许人们处理更大的数据(赶上汽车),从中提取出小数据所无法获得的信息与价值(发现汽车后备箱里面藏的东西)。)当然这里面设计很多技术,数据采样、数据处理、并行计算、建模、机器学习,如何使用这些数学工具以及专业知识,便成为核心问题。 ;Some funny ideas ;4.小规模的数据分析,会有很大噪音。1个人买了啤酒又买了尿不湿就说两者有什么关联,但是如果几百万个用户都显示了这样的关联,那就能说明一些问题了。可是数据量一旦上了规模,传统的系统就没办法很好的处理了。此案例还是被纳为营销界最成功的案例之一,究其竟还是巧妙的产品捆绑销售方式! PS:(发现啤酒和尿不湿多为男人在周末采购,而且购买这两种产品的顾客一般都是年龄在25至35周岁的青年男子,由于孩子尚在哺乳期,多数男人都接到了夫人的“圣旨”,下班??带尿不湿回家,而周末正是美国体育比赛的高峰期,一杯啤酒就着比赛是多么惬意的事!)于是有销售人员得到启发,在超市刻意将这2件商品摆放距离放近了许多,并且放置了一些牛肉干之类的。最后每年可增加几百美元的销售额。 阿里亚马逊ebay这些,成千上万种货物,每天成TB的甚至PB的数据量,要对大量不同的货品种类作分析和推荐,近实时地更新给用户看;推特和Facebook这些,根据用户发布的信息和行为模式,快速地分析整合数据给出精确广告投放是这些公司生存的根本。等移动互联网或者物联网更普及,数据量只会更大,结构更随意,分析更困难。能从中找到有意思的信息,用传统手段就更难了。;;大数据的产生;来源;来源;来源;来源;来源;来源;大数据技术的介绍; 目前对大数据尚未有一个公认的定义,不同的定义基本上是从特征出发,试图给出大数据的定义。;;大数据技术;大数据技术;大数据技术;大数据技术;大数据技术;大数据技术;大数据技术;大数据技术;大数据技术;大数据技术;大数据技术;大数据技术;中央政府对大数据的重视程度;大数据涉及的关键技术;大数据的技术生态; HDFS(Hadoop Distributed FileSystem分布式文件系统)的设计本质上是为了大量的数据能横跨成百上千台机器,但是你看到的是一个文件系统而不是很多文件系统。比如你说我要获取/hdfs/tmp/file1的数据,你引用的是一个文件路径,但是实际的数据存放在很多不同的机器上。你作为用户,不需要知道这些,就好比在单机上你不关心文件分散在什么磁道什么扇区一样。HDFS为你管理这些数据。 接下来处理数据,虽然HDFS可以为你整体管理不同机器上的数据,但是这些数据太大了。那么我如果要用很多台机器处理,我就面临了如何分配工作,如果一台机器挂了如何重新启动相应的任务,机器之间如何互相通信交换数据以完成复杂的计算等等。这就是MapReduce / Tez / Spark的功能。MapReduce是第一代计算引擎,Tez和Spark是第二代。MapReduce的设计,采用了很简化的计算模型,只有Map和Reduce两个计算过程(中间用Shuffle串联);什么是Map什么是Reduce? 考虑如果你要统计一个巨大的文本文件存储在类似HDFS上,你想要知道这个文本里各个词的出现频率。你启动了一个MapReduce程序。Map阶段,几百台机器同时读取这个文件的各个部分,分别把各自读到的部分分别统计出词频,产生类似 (hello, 12100次),(world,15214次)等等这样的Pair(我这里把

请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。
用户名: 验证码: 点击我更换图片

©2010-2013 max.book118.com在线文档投稿赚钱网. All Rights Reserved 蜀ICP备08101938号