大数据交流.pptx

  1. 1、本文档共56页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
大数据交流

数据 . 洞察 . 价值杨加元 HPE ESSeptember 29, 2016企业数字化主题的相关技术互联网如何使用大数据分析如何洞察云计算如何部署数字化业务社交媒体如何传播云网端新基础设施:云、网、端互联网作为一种基础设施的广泛安装“云”是指云计算、大数据基础设施。生产率的进一步提升、商业模式的创新,都有赖于对数据的利用能力,而云计算、大数据基础设施像水电一样为用户便捷、低成本地使用计算资源打开方便之门“网”不仅包括原有的“互联网”,还拓展到“物联网”领域,网络承载能力不断得到提高、新增价值持续得到挖掘。“端”则是用户直接接触的个人电脑、移动设备、可穿戴设备、传感器,乃至软件形式存在的应用。“端”是数据的来源、也是服务提供的界面。IT时代(数据分析)准DT时代(数据化运营)DT时代(运营数据)新生产资料:数据从IT时代正在步入 DT(Data Technology)时代45% VS 4% 有智商的机器学习 活数据,有平台有生态 数据为核心云服务增长率:45% 传统 IT整长率:4% 人工智能+专家 小数据,有闭环无生态 以数据运营为核心 专家经验 死数据 人力推动运营互联网、云计算、大数据基础设施:互联网战略资源:大数据核心竞争力:云计算系统数据用户什么是云计算一个定义通过网络接入弹性可扩展的物理或虚拟资源池,并可以以按需、自服务的方式对资源进行部署和管理的服务模式三种服务模式SAAS(软件即服务)PAAS(平台即服务)IAAS(基础设施即服务) 3种部署3种模式三种部署方式私有云共有云混合云4大技术四大关键技术虚拟化并行计算分布式资源管理海量数据存储1个定义8个特点八个特点超大规模按需服务弹性扩展高可用性5. 相对廉价6. 潜在风险7. 通用性8. 虚拟化云计算什么是大数据?大数据的定义原始版本大数据技术用以区分数据“信号”数据暗数据新瓶装旧酒先前由于技术限制而被我们忽略或无法进行的数据分析。或将其称为“暗数据”(Dark Data)。从技术角度定义“大数据”难免模糊,人们也尝试着从业务角度来定义“大数据”,用以区分数据。 一种尝试是用Transactions、Interactions和Observations定义。另一种则更加明了:Process-Mediated Data,Human-Sourced Information Data, 以及Machine-Generated Data。从商业价值角度更为直接的定义:传统的事务性数据,当我们记录下他们的时候,要做什么/改变什么已经太晚了(它已经发生)。现今,企业可以利用新的“信号(Signal)”数据,预测什么将要发生,而因此早些做出改进。这是最为懒惰和偏激的一种定义。认为“大数据”只是将原有的BI分析或商业智能重新冠以了一个高大上的名字。本质没有区别。我们除了面对更大量(Volume)更多种类(Variety)、更快速(Velocity)的数据以外,一批新技术应运而生,尤其是用以存储和处理数据的开源技术,如Hadoop、NoSQL等。学习和使用这些技术和工具,需要一个有别于传统技术的名称,最终,将其称为“大数据”。以大数据的三个特征数量(Volume)种类(Variety)速度(Velocity)定义大数据,是最为人所知,且被公认的一种。大数据的特征大量(Volume)存储大,计算量大多样(Variety)来源多,格式多速度(Velocity)增长数据快处理速度要求快价值 (Value)浪里淘沙却又弥足珍贵大数据技术要解决的技术难题How to get the data (如何收集数据)?How to store the data (数据如何存储)?How to process the data (数据如何计算处理)?How to visual the data (数据如何呈现)?Scale up – 纵向扩展纵向扩展,也就是升级硬件,提高单机性能,如增加内存,增强CPU 用更高性能的磁盘(如固态硬盘)优点:简单易行缺点:单台服务器的扩展空间有限,CPU、内存、磁盘再怎么扩展也是有限的,无法无限扩展。成本高Scale out – 横向扩展横向扩展,用多台节点分布式集群处理 (通过增加节点数量提高处理能力,这里说的节点指的就是一台计算机),将复杂的任务分摊,通过协作来实现单节点无法实现的任务。优点:成本相对低(可采用普通PC服务器)易于线性扩展缺点:系统复杂度增加,我们要将我们的应用部署到每一个节点上面,而多个节点协同工作时就要考虑以下几个问题如何调度资源任务如何监控中间结果如何调度系统如何容错如何实现众多节点间的协调海量数据如何存储- HDFSHDFS(Hadoop Distributed File System)A distributed file system

文档评论(0)

整理王 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档