- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
PAGE 1
PAGE 1
大数据的主要技术层面和技术内容
从信息系统的角度来看,大数据处理是一个涉及整个软硬件系统各个层面的综合性信息处理技术。从信息系统角度可将大数据处理分为基础设施层、系统软件层、并行化算法层以及应用层。图1-12所示是从信息处理系统角度所看到的大数据技术的主要技术层面和技术内容。 大数据是诸多计算技术的融合。从大的方面来分,大数据技术与研究主要分为大数据基础理论、大数据关键技术和系统、大数据应用以及大数据信息资源库等几个重要方面。 从信息系统的角度来看,大数据处理是一个涉及整个软硬件系统各个层面的综合性信息处理技术。从信息系统角度可将大数据处理分为基础设施层、系统软件层、并行化算法层以及应用层。图1-12所示是从信息处理系统角度所看到的大数据技术的主要技术层面和技术内容。 大数据主要技术层面和技术内容 1、基础设施层 基础设施层主要供应大数据分布存储和并行计算的硬件基础设施和平台。目前大数据处理通用化的硬件设施是基于平凡商用服务器的集群,在有特别的数据处理需要时,这种通用化的集群也可以结合其他类型的并行计算设施一起工作,如基于众核的并行处理系统(如GPU或者Intel新近推出的MIC),形成一种混合式的大数据并行处理构架和硬件平台。此外,随着云计算技术的发展,也可以与云计算资源管理和平台结合,在云计算平台上部署大数据基础设施,运用云计算平台中的虚拟化和弹性资源调度技术,为大数据处理供应可伸缩的计算资源和基础设施。 2、系统软件层 在系统软件层,需要考虑大数据的存储管理和并行化计算系统软件。 (1)分布式文件系统与数据查询管理系统 大数据处理首先面临的是如何解决大数据的存储管理问题。为了供应巨大的数据存储能力,人们的普遍共识是,利用分布式存储技术和系统供应可扩展的大数据存储能力。 首先需要有一个底层的分布式文件系统,以可扩展的方式支持对大规模数据文件的有效存储管理。但文件系统主要是以文件方式供应一个最基础性的大数据存储方式,其缺少结构化/半结构化数据的存储管理和访问能力,而且其编程接口对于许多应用来说还是太底层了。传统的数据库技术主要适用于规模相对较小的结构化数据的存储管理和查询,当数据规模增大或者要处理许多非结构化或半结构化数据时,传统数据库技术和系统将难以胜任。现实世界中的大数据不仅数据量大,而且具有多样化的形态特征。据统计,现实世界80%的数据都是非结构化或半结构化的。因此,系统软件层还需要研究解决大数据的存储管理和查询问题。由于SQL不太适用于非结构化/半结构化数据的管理查询,因此,人们提出了一种NoSQL的数据管理查询模式。但是,人们发觉,最抱负的还是能供应统一的数据管理查询方法,能应付各种不同类型的数据的查询管理。为此,人们进一步提出了NewSQL的概念和技术。 (2)大数据并行计算模式和系统 解决了大数据的存储问题后,进一步面临的问题是,如何能快速有效地完成大规模数据的计算。大数据的数据规模之大,使得现有的串行计算方法难以在可接受的时间里快速完成大数据的处理和计算。为了提高大数据处理的效率,需要使用大数据并行计算模型和框架来支撑大数据的计算处理。目前最主流的大数据并行计算和框架是HadoopMapReduce技术。与此同时,近年来人们开始研究并供应不同的大数据计算模型和方法,包括高实时低延迟要求的流式计算,具有复杂数据关系的图计算,面向基本数据管理的查询分析类计算,以及面向复杂数据分析挖掘的迭代和交互计算等。在大多数场景下,由于数据量巨大,大数据处理通常很难达到实时或低延迟响应。为了解决这个问题,近年来,人们提出了内存计算的概念和方法,尽可能利用大内存完成大数据的计算处理,以实现尽可能高的实时或低延迟响应。目前Spark已成为一个具有很大发展前景的新的大数据计算系统和平台,正受到工业界和学术界的广泛关注,有望成为与Hadoop并存的一种新的计算系统和平台。 3、并行化算法层 基于以上的基础设施层和系统软件层,为了完成大数据的并行化处理,进一步需要考虑的问题是,如何能对各种大数据处理所需要的分析挖掘算法进行并行化设计。 大数据分析挖掘算法大多最终会归结到基础性的机器学习和数据挖掘算法上来。然而,面向大数据处理时,绝大多数现有的串行化机器学习和数据挖掘算法都难以在可接受的时间内有效完成大数据处理,因此,这些已有的机器学习和数据挖掘算法都需要进行并行化的设计和改造。 除此以外,还需要考虑许多更贴近上层详细应用和领域问题的应用层算法,例如,社会网络分析、分析推荐、
原创力文档


文档评论(0)