基于NoSQL的分布式存储系统相关 算法改进与性能优化-计算机软件与理论专业论文.docxVIP

基于NoSQL的分布式存储系统相关 算法改进与性能优化-计算机软件与理论专业论文.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
I I PAGE PAGE IV 上海师范大学硕士学位论文 摘要 摘 要 随着网络存储系统的快速发展,基于分布式存储的应用正经历着前所未有的 高速发展,需要存储大量数据的网站、云服务等得以普及。然而这些数据目前集 中部署在单节点存储设备上,随着数据规模的扩大,单台主机的资源并不能容纳 大规模的数据。由于后续扩容成本昂贵,因此迫切需要引入分布式存储系统来解 决大数据的存放和访问问题。同时随着电子商务的发展以及 Web2.0 技术在网络 应用的广泛应用,传统的关系型数据库不能满足对当今数据的存储要求。NoSQL 数据库是对关系型数据库的补充,通过简单数据模型、元数据以及应用数据分离 和弱一致性等技术,实现对大数据的有效管理。 基于以上,本文主要研究基于 NoSQL 的分布式存储中的数据分布、数据压 缩和及存储格式问题,在分析总结国内外相关研究的基础上,提出了基于 Redis 改进的一致性哈希算法和基于 Hive 的性能优化研究,并以 Redis 在排行榜问题 中的应用为背景,对 Redis 进行了有效的性能分析与评测。主要的研究工作如下: (1) 基于 Redis 改进的一致性哈希算法,为了解决分布式存储系统中的数据 均衡问题,提高算法在应用实践时的可靠性、可用性等特性。通过对 Redis 存储 节点进行逻辑划分成一个组,组内采用主从模式可以提高分布式存储的一致性和 可靠性,并分析了同一个组内不同读写策略的数据一致性。当组内主节点宕机时, 利用从节点的备份数据以及主从切换可以及时对外提供集群服务。通过实验证 明,该算法能有效地降低读写操作平均响应时间和提高系统吞吐量,使分布式存 储系统负载更为均衡。 (2) 基于 Hive 的性能优化研究,为了解决分布式存储系统中文件系统的数 据压缩和存储格式问题,通过对 MapReduce 作业调度和 Hive 性能调优两个方面 对 Hive 的性能进行优化研究。对于 MapReduce 主要从编程模型切入,分析其执 行过程,并从 map 端、reduce 端进行参数调优。接着从 Hive 框架角度入手,分 别从分区表和外部表以及常用数据文件的压缩、行式存储与列式存储等方面进行 深入研究。实验结果表明,snappy 压缩、orcfile/parquet 存储格式可以对于列式 查询场景提高查询效率。 关键词:NoSQL,分布式存储系统,一致性哈希,数据压缩,存储格式 Abs Abstract Shanghai Normal University Master of Science Abstract With the rapid development of the network storage system, based on the application of distributed storage is experiencing an unprecedented rapid development, the need to store a large number of data sites, cloud services, etc.. However, these data are currently deployed in a single node storage devices, with the expansion of the scale of data, a single host of resources and can not accommodate large-scale data. As the subsequent expansion of the cost is expensive, it is urgent need to introduce a distributed storage system to solve the problem of large data storage and access. At the same time, with the development of electronic commerce and the wide application of Web2.0 technology in the network application, the traditional relational database can not meet the requirements of todays data storage. NoSQL database is a supplement to the relational database, through the simple data model, metadata and t

您可能关注的文档

文档评论(0)

131****9843 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档