大数据技术基础-医学课件.pptVIP

  • 3
  • 0
  • 约3.81千字
  • 约 10页
  • 2018-10-26 发布于湖北
  • 举报
大数据技术基础-医学课件.ppt

happy happy 第二章:大数据技术基础 《大 数 据 分 析 及 应 用 实 践》 * 目录 CONTENTS 2.1基础架构支持 2.2云计算 2.3数据采集 2.4数据存储 * * 2.1.1 Hadoop Hadoop是Apache软件基金会旗下的一个开源分布式计算平台,为用户提供了系统底层细节透明的分布式基础架构 Hadoop是基于Java语言开发的,具有很好的跨平台特性,并且可以部署在廉价的计算机集群中 Hadoop的核心是分布式文件系统HDFS(Hadoop Distributed File System)和MapReduce Hadoop被公认为行业大数据标准开源软件,在分布式环境下提供了海量数据的处理能力 几乎所有主流厂商都围绕Hadoop提供开发工具、开源软件、商业化工具和技术服务,如谷歌、雅虎、微软、思科、淘宝等,都支持Hadoop * 2.1.1 Hadoop 经过多年的发展,Hadoop项目不断完善和成熟,目前已经包含多个子项目(如下图2-2所示) 除了核心的HDFS和MapReduce以外,Hadoop项目还包括Common、Avro、Zookeeper、HBase、Hive、Chukwa、Pig等子项目,它们提供了互补性服务或在核心层上提供了更高层的服务 Hadoop技术架构 Hadoop技术架构图 * 2.1.1 Hadoop 1:日志采集; 2:传输日志; 3:将日志写入HDFS; 4:从HDFS中将日志装载入数据仓库中; 5:对装载的数据进行分析; 6:调用Hadoop集群的M/R执行并行计算,并返回结果; 7:将结果中有价值的数据写入HBASE数据库; 8:报表系统应用程序端通过HBASE查询数据并展现; 项目架构 * 2.1.2 HBase HBase是运行在Hadoop上的NoSQL数据库,它是一个分布式的、可扩展的大数据仓库,是一个构建在HDFS上的分布式列存储系统; 从逻辑上讲,HBase将数据按照表、行和列进行存储。 与hadoop一样,Hbase目标主要依靠横向扩展,通过不断增加廉价的商用服务器,来增加计算和存储能力。 HBase表特点:a.大 b.无模式 c.面向列 d.稀疏 e.数据多版本 f.数据类型单一 * 2.1.3 MapReduce MapReduce是一种编程模型,基于它写出来的应用程序能够运行在由上千个商用机器组成的大型集群上,并以一种可靠容错的方式并行处理上T级别的数据集。 Map—映射 Reduce——归纳 MapReduce就是“任务的分解与结果的汇总” MapReduce处理流程 * 2.1.4 Hive ?Hive是建立在 Hadoop 上的数据仓库基础构架,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。 ?本质是将SQL转换为MapReduce程序 Hive与Hadoop关系 * 2.1.5 Pig Pig是一个基于Hadoop的大规模数据分析平台,Pig包含两个部分:Pig Interface,Pig Latin。 它提供的SQL-LIKE语言叫Pig Latin,该语言的编译器会把类SQL的数据分析请求转换为一系列经过优化处理的MapReduce运算。 Pig为复杂的海量数据并行计算提供了一个简单的操作和编程接口。 Pig 简介 * 2.1.6 R语言 R是一套完整的数据处理、计算和制图软件系统。 数据存储和处理系统 数组运算工具(其向量、矩阵运算方面功能尤其强大) 完整连贯的统计分析工具 优秀的统计制图功能 简便而强大的编程语言 可操纵数据的输入和输出,可实现分支、循环,用户可自定义功能 功能 * * 2.2.1 云计算的特点 云计算是一种计算模型,它将计算任务分布在大量计算机构成的资源池上,使用户能够按照自己的需要获取计算、存储和信息服务。云计算实现了通过网络提供可伸缩的、廉价的分布式计算能力,用户只需要在具备网络接入条件的地方,就可以随时随地获得所需的各种IT资源 1.可扩展性:实现动态的,可伸缩的扩展 2.按需提供资源服务:按需求提供资源,按使用量付费 3.虚拟化:基于虚拟化技术快速部署资源或获得服务 4.超大规模:通过互联网提供、面向海量信息处理 5.高可靠性和安全性:服务器使用数据多副本容错,计算节点同构可互换等措施,保障服务的可靠性和安全性。 云计算的特点: 云计算的服务模式和类型 * 商业模式驱动 应用需求驱动 云计算为大数据提供了技术基础,大数据为云计算提供了用武之地 云计算的模式是业务模式,本质是数据处理技术。 数据是资产,云为数据资产提供存储、访问和计算。 当前云计算更偏重海量存储和计算,以及提供的云服务,运行云

文档评论(0)

1亿VIP精品文档

相关文档