大数据ppt精要.ppt

  1. 1、本文档共29页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
大数据ppt精要

第一V是Variety,海量数据有不同格式,第一种是结构化,我们常见的数据,还有半结据化网页数据,还有非结构化视频音频数据。 能够在不同的数据类型中,进行交叉分析的技术,是大数据的核心技术之一.语义分析技术,图文转换技术,模式识别技术,地理信息技术等,都会在大数据分析时获得应用. 第二点就是Volume,量比较大,我们有一些用户化每秒就要进入很多数据,很多客户内部都有几批数据,还有下面淘宝都是几PB数据,所以PB化将是比较常态的情况。 非结构化数据的超大规模和增长,占总数据量的80~90%,比结构化数据增长快10倍到50倍,是传统数据仓库的10倍到50倍 第三个是Velocity,因为数据化会存在时效性,需要快速处理,并得到结果出来。比如说,一些电商数据,今天的信息不处理没有结果化,将会影响到今天捕获很多商业决策。 1s 是临界点. 对于大数据应用而言,必须要在1秒钟内形成答案,否则处理结果就是过时和无效的. 实时处理的要求,是区别大数据引用和传统数据仓库技术,BI技术的关键差别之一. 重庆抢劫案:周克华 第四个是Value:大量的不相关信息,不经过处理则价值较低,属于价值密度底的数据 海量数据分析非常复杂,使得过去靠单纯易于关于数据库BI已经不是太适合了。所以,可能需要新的创新。 云计算只是一个概念,很多人也都会,一说起云计算,就觉得会想吐的感觉,现在大家都在说云计算,各种各样的服务,各种各样的公司,各种云,总在说云计算是一个概念。百度,也是一个很典型的云计算平台,他有很多很多的数据会在上万台服务器上出运算,这个可能在传统的一些计算环境是无法满足的。 数据越多越值钱,这个可能也是一个误区。很多公司其实都有很多数据,什么某度,某讯,他们都有很多数据,相比较而言淘宝的商业数据就更有价值 第一个是互联网企业,比如我们有用户做网络广告监测,每天有几百G技术,网络点击数据,他就会去分析这些点击日志来分析,哪些用户在哪些阶段点击广告,从而帮助商户们来判断他投广告是否有价值。 第二是智能电网,比如说,他们一个省有300个用电用户,每隔几分钟会将他们大宗数据发送到后端集群当中,之后集群就会对这些数亿条数据进行分析,来分析一下大概的用电模式,根据用电模式来生产电力,这样能够节省电力资源的浪费。 第三个方面是车联网,车载终端,是每隔几分钟都会上传一些数据到后端数据集群里面,最后会分析这些数据,来判断一下大致路况是什么情况,之后将有价值的路况信息给Push客户端里面,能够帮助客户节省在路上时间。 第四是医疗行业,每个人看病都有病例,如果我们把全国,几千万病例都汇总起来之后进行一些数据分析,数据处理,会找出大致的一些模式,通过这种模式非常容易的帮助医生看病。 第五个是安全领域,在美国比较火,中情局,他们有很多视频数据关于煽动的,还有本拉登一些照片,之后就分析一些哪些煽动助萨达姆,卡札菲,本拉登,除此之外还有一些通过海量分析文本数据从而形成一定程度的AI。 自然语言处理是研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。 机器学习(Machine Learning)研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。 【图像化】 几乎是全行业! hbase是bigtable的开源山寨版本。是建立的hdfs之上,提供高可靠性、高性能、列存储、可伸缩、实时读写的数据库系统。 它介于nosql和RDBMS之间,仅能通过主键(row key)和主键的range来检索数据,仅支持单行事务(可通过hive支持来实现多表join等复杂操作)。主要用来存储非结构化和半结构化的松散数据。 hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 * * 大趋势 —Big Data * 国内大数据 马云对未来的预测,是建立在对用户行文分析的基础上。“2008年初,阿里巴巴平台上整个买家询盘数急剧下滑,欧美对中国采购在下滑。海关是卖了货,出去以后再获得数据;而我们提前半年时间从询盘上推断出世界贸易发生变化了。” 腾讯在天津投资建立亚洲最大的数据中心;百度也在投资建立大数据处理中心; * 2012年3月,美国奥巴马政府宣布投资2亿美元启动“大数据研发计划”,旨在提高和改进从海量和复杂数据中获取知识的能力,加速美国在科学和工程领域发明的步伐,增强国家安全。 这是继1993年美国宣布“信息高速公路”计划后的又一次重大科技发展部署,由美国国家科学基金会、能源部等6个联邦部门共同投资。 美国的大数据战略 * 大数据的定义 理解大数据 相关技术与应用 目录

文档评论(0)

shuwkb + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档