云环境下海量小文件存储技术的研究和应用.pdf

云环境下海量小文件存储技术的研究和应用.pdf

  1. 1、本文档共72页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
摘要 摘要 大数据时代的到来,导致人类所产生的信息数据量以井喷的形势汹涌而来,尤其 是像图片、邮件、电子档案这类的海量小文件。传统的存储技术已经无法适应大数据时 代海量文件的存储需求,如何高效地应对海量小文件的存储是当前技术领域一个有待 解决的问题。大数据与云计算相伴相随,而云存储则是在云计算的概念之上产生出来 的,它是云计算的发展和延生,它具有响应速度快,管理高效,结构灵活多变等优点, 已经成为世界各国解决数据爆炸性增长的重要解决方案。因此,云环境下海量小文件 处理技术是一个重要的课题。 本文深入分析了HADDOP分布式文件系统(皿FS)的工作原理,重点讨论了它 作为现如今炙手可热的云存储平台,具有的开源、高容错、可扩展性强和成本相对节约 的优点。同时针对目前的应用环境和需求,提出了海量小文件存储这一现实性的问题, 结合HADOOP架构自身的主从结构和元数据存储方式,提出了它在处理海量小文件的 时候会出现存取时间长和NameNode节点内存占有率高这两个方面的问题。为了解决 这一问题,本文研究了现有的小文件处理方法,分析了各自的优缺点之后,提出了一个 云环境下小文件问题的通用解决方案,具有独立小文件处理模块的分布式文件系统。 这一架构是在现有的分布式文件系统之前加入小文件处理模块来实现小文件的合并、 分离、缓存等功能,进而再交由传统HDFS进行处理,既不改变原有的架构,也不影 响对大文件的和合并后的小文件的处理,从而提高整个系统对小文件的存取效率。进 一步提出了相适应的的元数据类型与结构,通过分组算法、合并算法、检索算法和缓存 方法,修改了相关接口功能,最后实现了新的小文件读写流程。最后通过系统的仿真实 验,对比HDFS原有方法,证实了此改进方式对于系统在存取时间的减少和元数据内 存消耗的降低有很大的帮助,整体上提高了系统的小文件存储性能。 关键词:云存储;海量小文件;HADOOP平台;HDFS; 万方数据 广东工业大学硕士学住论文 Abstract Thearrivaloftheeraof intheamountofinformationanddata bigdata,resulting humanavalancheinblowout as generatedby situation,especially filessuchmassivesmallfiles.Traditional hasbeenunableto tothe storagetechnology adapt of to store amountsofsmall eraofmassivedata needs files,how large storage large efficiently filestodealwiththecurrent inthefieldofa tobe dataand technology problemsolved.Big cloud handin cloud is outonthe ofcloud go hand,andstorageproduced concept computing isthe andextensionofhealthcloud hasfast development

文档评论(0)

gubeiren_001 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档