网站大量收购闲置独家精品文档,联系QQ:2885784924

现代通信系统新技术 (第三版) 课件 第8章 大数据和云计算技术简介.pptx

现代通信系统新技术 (第三版) 课件 第8章 大数据和云计算技术简介.pptx

  1. 1、本文档共72页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

第8章大数据和云计算技术简介;

大数据(BigData),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理并整理成为帮助企业经营决策的资讯。大数据需要特殊的技术来有效地处理大量的规定时间内的数据。适用于大数据的技术包括大规模并行处理(MPP)数据库、数据挖掘电网、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。;

8.1大数据的概念;

数据量大(Volume)指的是数据的采集、存储和计算的量都非常大,大数据通常指10TB以上规模的数据量。造成数据量增大的原因很多,例如,监控和传感设备的使用,使我们感知到更多的事务,这些事务的数据将被部分或者完全存储;(移动)通信设备的使用,使得交流的数据量成倍增长;基于互联网和社会化网络的应用的发展,数以亿计的用户每天都会产生大量的数据。;

数据种类多(Variety)是指数据的种类和来源较多,例如多种传感器、智能设备、社交网络等,包括结构化、半结构化和非结构化,以及图片、音频、视频、地理位置等多类型的数据,实际上就是具有多个时段(历史的、现在的)、多种媒体、多个来源、异构(结构化、半结构化、非结构化)的数据。;

数据的增长及处理速度快(Velocity)是指数据每分每秒都在爆炸性地增长,而对数据的处理速度要求也很高,数据的快速动态的变化使得流式数据成为大数据的重要特征,对大数据的处理要求具有较强的时效性,能够实时地查询、分析、推荐等。

;

数据蕴藏价值大(Value)是指在海量的数据中,存在着巨大的被挖掘的商业价值,然而由于数据总量的不断增加,数据的单位价值密度却相对较低,如何通过强大的数据挖掘算法,结合企业的业务逻辑来从海量数据中获取有用的价值,是大数据要解决的重要问题。大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。

除了上述的4个根本特征外,大数据与传统的数据处理技术最明显的一个区别是,大数据要求在线处理。;

大数据的总体架构包括三??:

(1)数据存储层。数据有很多种分类方法,有结构化、半结构化、非结构化,也有元数据、主数据、业务数据,还可以分为GIS、视频、文件、语音、业务交易类各种数据。

(2)数据处理层。数据处理层解决的核心问题在于出现分布式存储后,存储方式的改变所带来的数据处理上的复杂度,海量数据存储则带来了数据处理上的时效性要求。

(3)数据分析层。数据分析层的重点是挖掘大数据的真正价值所在,而价值的挖掘核心又在于数据分析和挖掘。;

数据分析只关注两个内容:

一个是传统数据仓库下的数据建模,在该数据模型下需要支持上面各种分析方法和分析策略;

另一个是根据业务目标和业务需求建立的KPI指标体系,对应指标体系的分析模型和分析方法。解决了这两个问题,就基本解决了数据分析的问题。;

从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理,必须采用分布式计算架构。它的特色在于对海量数据的挖掘,但它必须依托云计算的分布式处理、分布式数据库、云存储和/或虚拟化技术。物联网、云计算、移动互联网、车联网、手机、平板电脑、PC以及遍布地球各个角落的各种各样的传感器,无一不是数据来源或者承载的方式。

大数据最核心的价值在于对海量数据的存储和分析。相比现有的其他技术,大数据具有廉价、迅速、优化三大特点。;

8.1.1大数据处理的六大工具

1.?Hadoop

Hadoop是一个能够对大量数据进行分布式处理的软件框架,它是以一种可靠、高效、可伸缩的方式进行处理的。

它主要有以下几个优点:

(1)高可靠性。

(2)高扩展性。

(3)高效性。

(4)容错性。

;

2.?HPCC

高性能计算与通信(HighPerformanceComputingandCommunications,HPCC)是1993年由美国科学、工程、技术联邦协调理事会向国会提交的“重大挑战项目:高性能计算与通信”的报告,也就是被称为HPCC计划的报告,即美国总统科学战略项目,其目的是通过加强研究与开发解决一批重要的科学与技术挑战问题。;

该项目主要由五部分组成:

(1)高性能计算机系统(HPCS),内容包括今后几代计算机系统的研究、系统设计工具、先进的典型系统及原有系统的评价等。

(2)先进软件技术与算法(ASTA),内容包括巨大挑战问题的软件支撑、新算法设计、软件分支与工具、计算及高性能计算研究中心等。

(3)国家科研与教育网络(NREN),内容包括中接站及10亿位级传输的研究与开发。;

(4)基本研究

文档评论(0)

balala11 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档