- 1、本文档共103页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
13面向海量数据处理领域的云计算及其关键技术研究_任崇广
1绪论随着信息时代的到来,在许多科学领域中,数据信息呈现出爆炸式的增长。根据IDC (International Data Corporation)的调查显示,截止到2011年,全球信息总量为1.8ZB (ZettaBytes)。IDC预计,到下一个十年(2020年),全球所有IT部门拥有服务器的总量将会比目前多出10倍,所管理的数据将会多出50倍。对于这些大规模、多态性、分布式、非(半)结构化等特性的海量数据,如何对其进行有效地分析与处理,并且从中挖掘出有价值的信息,实现数据统一管理,以使其发挥出最大的效益,是目前实际应用中迫切需要解决的问题。传统的海量数据处理方法主要是釆用并行计算的方式。当前大型并行机主要有:单指令多数据流机SMD(Single-Instruction Multiple-Data)、对称多处理机SMP(Symmetric Multi-Processing )、并行向量处理机 PVP (Parallel Vector Processor)工作站机群COW(Cluster OfWorkstation)分布共享存储多处理机DSM(Distributed Shared Memory)以及大规模并行处理机MPP (Massively Parallel Processing)。传统的并行处理方式主要依托高性能计算机,硬件成本过高、并行程序编写困难,一般用户很难操作。其应用范围也非常有限。目前,这种处理方式主要应用于科学计算方面,例如,军事、气象、生物、核科学、高能物理等领域。云计算(Cloud Computing)是近年来出现的一个高热度名词,本质上它并不是一个全新的技术。云计算是在分布式计算(Distributed Computing)、并行计算(Parallel Computing)效用计算(UtilityComputing)以及虚拟化(Virtualization)等技术上发展出来的一个新的技术模式。云计算技术拥有分布式计算,超大规模,虚拟化,高可靠性,高弹性,可扩展,按需服务等特点,能够为海量数据处理提供更为高效的分析以及更好的计算能力。目前,云计算平台主要有亚马逊云计算平台、谷歌云计算平台、IBM “蓝云”计算平台、Eucalyptus、Hadoop等。其中,由于Hadoop在海量数据处理方面具有非常优越旳性能,因此,近几年其已成为最为流行的云计算开发平台之一。本文针对海量数据处理,海量小文件处理以及海量数据存储中目前存在的问题,结合云计算技术中的虚拟化技术、分布式计算技术,以及分布式存储技术等相关理论与技术,构建了云计算环境下的海量小文件处理模型,研究和建立了云计算环境下PDF格式文档内容映射查询机制与海量数据存储机制,以期实现高速可靠的数据访问,及对海量数据进行高效的组织与管理,从而降低海量信息处理应用开发和使用的复杂性,提升数据的统一管理和海量信息的共享。1.1课题的背景及研究意义Google首席执行官埃里克?施密特(Eric Schmidt)在2006年全球搜索引擎大会上(SES San Jose 2006)首次提出云计算(Cloud Computing)的概念。随着Google云计算核心技术GFS、MapReduce和BigTable的公开,越来越多的企业认同并广泛应用了云计算技术。云计算正在全球掀起一场云革命:无论是微软、Oracle、SAP及IBM等国际知名的软件业巨头,还是亚马逊、Salesforce以及国内的阿里巴巴、中移动、浪潮企业等服务厂商,均陆续推出了基于云计算技术的产品和服务。目前,云计算技术己成为IT与相关领域最受关注和发展最快的技术。云计算是多种技术融合的产物,由于其商业实现及研究成果不同的侧重,因此,针对云计算的定义目前有很多种形式。中国网格计算、云计算专家刘鹏:云计算将计算任务发布在大量计算机构成的资源池上,使各种应用系统能够根据需要获取计算力、存储空间和各种软件服务。美国国家标准与技术研究院(NIST):云计算是一种按使用量付费的模式,这种模式提供可用的、便捷的、按需的网络访问,进入可配置的计算资源共享池(资源包括网络,服务器,存储,应用软件,服务),这些资源能够被快速提供,只需投入很少的管理工作,或与服务供应商进行很少的交互。原文:Cloud computing is a mode] for enabling ubiquitous, convenient, on-demandnetwork access to a shared pool of configurable computing resources (e.g., networks, servers, storage, applications, and services) that can be rapidly
文档评论(0)