大数据存储架构和算法研究综述.docxVIP

下载本文档

3
0
约2.33千字
约 4页
2020-04-13 发布于贵州
举报
版权申诉

大数据存储架构和算法研究综述.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

大数据存储架构和算法研究综述

大数据存储架构和算法研究综述　　摘要：　　随着大数据计算需求的增长，集群的处理速度需要得到快速的提升，然而目前大数据处理框架的处理性能已逐渐满足不了这种快速增长的需求。由于集群的存储架构是分布式存储，因此数据的存放在大数据处理过程中成为影响集群的处理性能的因素之一。首先，对当今的分布式文件存储系统的结构进行了介绍；接着，根据不同的优化目标，例如减少网络负载、负载均衡、降低能耗和高容错性等，对近年国内外大数据存储算法的研究进行了总结，分析和对比了已有算法的优点以及存在的问题；最后，对大数据存储架构和优化算法设计的挑战和未来研究方向作了展望。　　关键词：　　大数据；数据部署；分布式文件系统；MapReduce；Hadoop　　中图分类号：　　TP393　　文献标志码：A　　Abstract：　　With the growing demand of big data computing， the processing speed of the cluster needs to be improved rapidly. However， the processing performance of the existing big data framework can not satisfy the requirement of the computing development gradually. As the framework of the storage is distributed， the placement of data to be processed has become one of the key factors affecting the performance of the cluster. Firstly， the current distributed file system structure was introduced. Then the popular data placement algorithms were summarized and classified according to different optimization goals， such as network load balance， energy saving and fault tolerance. Finally， future challenges and research directions in the area of storage framework and algorithms were presented.　　英文关键词Key words：　　big data； data placement； distributed file system； MapReduce； Hadoop　　0引言　　随着互联网的高速发展和迅速普及，我们已经进入了一个信息爆炸型的时代，大数据处理的需求正在迅速增加，在科学、工业、商业等领域，信息处理量达到TB级甚至PB级已是正常现象。因此，寻求优秀的大数据处理模型对于处理数据密集型应用是非常重要的。　　相对于传统的数据，人们将大数据的特征总结为5个 V，即数据量大、速度快、类型多、难辨识和价值密度低[1]。数据量大仍可以靠扩展储存在一定程度上缓解，然而要求及时响应、数据多样性和数据不确定性是传统数据处理方法所不能解决的。　　为了应对这种大数据所带来的困难和挑战，诸多大型互联网公司近几年推出了各种类型的大数据处理系统。XX年，Google公司提出的MapReduce编程模型是面向大数据处理技术的具体实现，在学术界和工业界引起了很大反响[1]。随后Apache基金会根据MapReduce模型开发出开源的大数据处理框架Hadoop在Yahoo！、IBM、百度等公司得到了大量的应用和快速的发展[2]。然而，作为一个新兴的技术，大数据处理技术在很多地方还存在着很多不足，如调用分布式的数据所造成的延迟、巨大的数据吞吐量与不相符的网络速率所造成的网络负载严重的问题等。因此，国内外诸多学者们一直在找寻较好的数据存储方法以加强大数据处理的综合能力。本文首先对目前较为流行的大数据存储结构进行了介绍，然后对近几年的大数据存储策略方面的优化进行了总结，最后对全文进行了总结并提出对未来的展望。　　1数据存储结构　　传统集中式数据存储　　传统互联网数据的创造和使用多以企业为主，数据的种类较为单一，又多以结构化数据为主，数据的管理以数据库的形式存在；企业根据自身对数据需求的不同，制定适用于自身的数据库模式，而后才产生数据；数据仅作为一种处理对象，并不能用来辅助解决其他问题；