- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大数据技术基础第二章 大数据系统的基础支撑技术内容大纲并行计算技术Hadoop生态系统Spark生态系统背景大数据不等于一大堆数据然而,回顾大数据的发展,引燃大数据概念的时刻还是那些当数据规模大到一定程度,传统技术无法或者很难处理的时候...大数据有多大呢? - 人类的DNA有30亿左右个碱基对,一个人的基因有0.75GB - FAST天眼观测时的峰值数据率38G/秒,1000小时数据量约2.8PB并行计算的思想从内涵上来说,并行计算是指同时运用多种计算资源解决计算问题的过程,是提高计算机系统计算速度和处理能力的一种有效计算模式。并行计算的理念一般认为起源于源于经典的“分治”思想,即将一个大问题进行划分,通过分别解决划分后的子问题,再将子问题的答案进行合并,从而得到最终的答案。按照并行的维度不同,并行计算可分为时间上的并行和空间上的并行。时间上的并行,主要是指流水线技术:在同一时间启动两个或两个以上的操作空间上的并行是指多个处理机并发的执行计算,即通过网络将两个以上的处理机连接起来,达到同时计算同一个任务的不同部分,或者单个处理机无法解决的大型问题。按照参与计算任务的单元的不同:含有多个处理器的超级计算机(或称高性能计算系统)以某种方式互连的若干台的独立计算机构成的集群(或称分布式计算系统)高性能计算系统数据规模的爆炸性增长给数据系统提出了巨大挑战高性能计算是一直以来的主要解决方案自第一台计算机ENIAC诞生起,就有一系列重要应用:导弹弹道轨迹模拟核爆模拟天气预报高性能计算系统组成高性能计算系统的节点,通常可分为计算、存储和管理三类:计算节点主要负责计算,一般会配置多个多核处理器和较大的内存,还会配置GPU、FPGA等计算加速器,一般会带一些本地磁盘,用于存储计算中间结果存储节点负责数据的存储,包括原始数据和最终的计算结果,也有可能包含一部分的计算中间结果管理节点用于节点和用户的管理,负责运行状态监控、任务提交和调度等神威·太湖之光超级计算机的外观分布式计算系统分布式计算系统则是在地域上分布但通过计算机网络进行互连配置的计算系统,其单点的计算性能通常比高性能计算机弱,因此造价也相对便宜。分布式计算系统已经成为越来越多的大数据计算任务的首要实现形式,实现上述分布式计算的物理机器的总和,称为集群,一个集群是一系列的服务器(或称节点)。分布式计算系统的核心就是如何将一个计算任务进行划分,然后分发到这些集群中的节点上执行计算,再返回结果。并行计算的系统支持重点需要处理线程创建、共享资源的竞争保护、多机之间的通信等问题。常见的并行编程组件有Pthreads、OpenMP和MPI等:Pthreads:主线程-子线程-回收资源OpenMP:提供编译器上的支持,用户标记可并行的循环,编译器自动实现线程划分和并行MPI:节点之间不共享内存,采用消息传递;运行多个进程除了计算框架外,并行计算的其他支撑软件:任务调度软件,常见的有SLURM、OpenPBS并行文件系统,常见的有PYFS、Lustre等并行计算的系统支持虚拟化技术是指创建虚拟的事物,包括计算机硬件平台、操作系统、存储设备、计算机网络等,是云计算的支撑技术。虚拟化技术可以把物理硬件资源的一部分抽取出来并封装成逻辑上独立的虚拟机,来满足客户不同的需求,实现云计算所要求的资源灵活配置。云服务大大降低了一般开发者和用户的时间、经济成本。有了云计算服务之后,用户通过直观的Web界面或简洁的API就能创建和使用虚拟机,根据应用的负载用户可以随时调整虚拟机的配置。常见的IaaS云计算服务有亚马逊的AWS(Amazon Web Services)、微软的Azure、阿里巴巴的阿里云等Hadoop生态系统概述 Hadoop是Apache软件基金会旗下的一个开源分布式计算平台,为用户提供了系统底层细节透明的分布式基础架构 Hadoop是基于Java语言开发的,具有很好的跨平台特性,并且可以部署在廉价的计算机集群中 Hadoop的核心是分布式文件系统HDFS(Hadoop Distributed File System)和Hadoop MapReduceHadoop被公认为行业大数据标准开源软件,在分布式环境下提供了海量数据的处理能力;因此,几乎所有主流厂商都围绕Hadoop提供开发工具、开源软件、商业化工具和技术服务,如谷歌、雅虎、微软、思科、阿里巴巴等,都支持HadoopHadoop架构标志Hadoop发展简史Hadoop起源于Apache Nutch项目,始于2002年,是Apache Lucene的子项目之一。 在2004年,Nutch项目也模仿GFS开发了自己的分布式文件系统NDFS(Nutch Distributed File System),也就是HDFS的前身 2004年,谷歌又发表了另
您可能关注的文档
- 高教社周克清财政学第五版教学课件第15章 财政政策与宏观调控.pptx
- 高教社周克清财政学第五版教学课件第14章 政府间财政关系.pptx
- 高教社周克清财政学第五版教学课件第12章 公共决策与财政监督.pptx
- 高教社周克清财政学第五版教学课件第11章 公债.pptx
- 高教社周克清财政学第五版教学课件第10章 税收制度概论.pptx
- 高教社周克清财政学第五版教学课件第09章 税收经济分析.pptx
- 高教社周克清财政学第五版教学课件第07章 财政收入概论.pptx
- 高教社周克清财政学第五版教学课件第03章 公共产品与外部性.pptx
- 高教社唐九阳大数据技术基础教学课件第11章 在线用户行为分析案例.pptx
- 高教社唐九阳大数据技术基础教学课件第10章 旅游网站大数据分析案例.pptx
- 高教社唐九阳大数据技术基础教学课件第1章 大数据概述.pptx
- 高教社旅游资源开发及管理(第三版)教学课件12第十二章-旅游资源管理创新.pptx
- 高教社旅游资源开发及管理(第三版)教学课件11第十一章-旅游资源管理体制.pptx
- 高教社旅游资源开发及管理(第三版)教学课件10第十章-旅游资源安全管理.pptx
- 高教社旅游资源开发及管理(第三版)教学课件09第九章-旅游资源信息管理.pptx
- 高教社旅游资源开发及管理(第三版)教学课件08第八章-旅游资源权属管理.pptx
- 高教社旅游资源开发及管理(第三版)教学课件07第七章-旅游资源开发.pptx
- 高教社旅游资源开发及管理(第三版)教学课件06第六章-旅游资源评价.pptx
- 高教社旅游资源开发及管理(第三版)教学课件05第五章-旅游资源调查.pptx
- 高教社旅游资源开发及管理(第三版)教学课件04第四章-人文旅游资源.pptx
原创力文档


文档评论(0)