大数据技术基础与应用.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
⼤数据技术基础与应⽤ ⼤数据时代 第三次信息化浪潮 :⼤数据+云计算+物联⽹ ⼤数据时代 : ⼤数据时代来临 重要因素 ⼀、 技术⽀撑 1. 存储 :存储设备容量不断增加,价格不断降低 2. CPU处理能⼒⼤幅提升 :单核-多核 3. ⽹络带宽不断增加 ⼆、 数据产⽣⽅式 变⾰ (重要因素) 运营式系统阶段 - ⽤户原创内容阶段- 感知式系统阶段 (物联⽹ 兴起 (重要因素) :摄像头、传感器、⽓象温、湿度传感器都在时时刻 刻在记录数据) ⼤数据概念和影响 ⼀、 ⼤数据 概念 4V :⼤量化、多样化、快速化、价值密度低 1. 数据量⼤ :⼈类在最近两年产⽣ 数据量相当于之前产⽣ 全部数据量 ⼤数据是由结构化和⾮结构化数据组成 结构化类型数据 :10%(存储在关系型数据库⾥⾯ 结构化数据) ⾮结构化数据 :90% (图形、图像、⽂本、视频…) 2. 多样化 :⾮结构化数据多样化 3. 快速化 :所有软件要求1秒级 4. 价值密度低,商业价值⾼ ⼆、 ⼤数据 影响 科学研究 四种范式: 实验- 理论-计算-数据 在思维⽅式⽅⾯ :⼤数据完全颠覆了传统 思维⽅式 1. 全样⽽⾮抽样 :可存储数据内容增加 2. 效率⽽⾮精确 :之前是抽样,若精度不⾼则放到全样上误差会放⼤。⽽现在是全样分析,故误差不会改变太多。 3. 相关⽽⾮因果 ⼤数据应⽤ ⼤数据关键技术 ⼤数据技术 层次-两⼤核⼼技术 (分布式存储+分布式处理 ) 分布式存储 :解决海量数据 存储问题 借助集群⽹络存储 分布式处理 :解决海量数据 处理问题 借助集群⽹络处理 不同 ⼤数据产品服务 ⽅向是不同 :批处理、交互式计算、实时计算等。每个产品 计算领域是不同,故需要对计算模式进⾏区分。 计算模式 1. 批处理计算模式:不适合做实时 交互式计算,批处理不能满⾜时效性要求。MapReduce/Spark为典型代表。但是Spark解决了 MapReduce中 ⼀些缺点。MapReduce不能⾼效地迭代计算,⽽Spark可以。 2. 流计算 :专门针对流数据 实时计算。流数据需要实时处理,给出实时响应,否则分析结果就会失去商业价值。 3. 图计算 :eg:Google Pregel 4. 查询分析计算 :有⾮常⾼ 实时性 不同 产品服务于不同 计算问题 什么是云计算? 两⼤核⼼问题 :① 解决了海量数据 分布式存储和分布式处理问题 ② 云计算代⾏特征 :虚拟化+多⽤户 概念 :云计算通过⽹络以服务 ⽅式为⽤户提供⾮常廉价 IT资源。 优势 :企业不需要⾃建IT基础设置,可以租⽤云端资源。 云计算 三种模式 公有云、混合云、私有云 公有云:⾯对所有公众使⽤ 私有云:给内部使⽤ 混合云:公有云+私有云 三种云服务 IaaS —— 基础设施即服务 将基础设施 (计算资源和存储)作为服务出租。eg:购买环境,可以在该环境下安装各种软件,所有设施都提供好了 PaaS——平台即服务 在别⼈搭建 云平台开发环境下开发云计算产品,开发出来 产品也部署在别⼈ 云平台开发环境下,可卖给其他⼈ SaaS——软件即服务 将软件作为⼀种服务卖给⽤户 云计算 关键技术 虚拟化 : 云计算数据中⼼ :数据中⼼包含⼤量⼤⽚服务器 云计算 应⽤ Hadoop简介 1. Hadoop是Apache软件基⾦会旗下 开源软件 2. 开源分布式计算平台。降低了使⽤ 复杂性。屏蔽了⼤数据底层 复杂 操作,为⽤户提供接⼝供⽤户使⽤ 3. 虽然⽤ java 开发,但是其可⽀持多种编程语⾔ (跨平台)。 4. 核⼼技术 : HDFS+MapReduce (批处理,⾮实时计算) (解决实现海量数据 存储 + 实现海量数据 处理两个核⼼问题) 5. 排序使其成名 6. 对海量数据进⾏存储和处理 分布式框架,且是⼀种⾼效

文档评论(0)

爱分享的达人 + 关注
实名认证
文档贡献者

爱分享

1亿VIP精品文档

相关文档