- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
云存储系统中文件分界点确定的方法
云存储系统中文件分界点确定的方法
摘 要:
针对Hadoop分布式文件系统(HDFS)中小文件定义模糊导致HDFS处理小文件性能不佳的问题,提出了一种云存储系统中文件分界点的确定方法――CutGAR。该方法分析消耗NameNode内存(M)、文件上传速度(MUFS)、文件读取速度(MAFS)与文件大小之间的关系,得出文件大小三个近似最优值,FM、FMUFS、FMAFS;然后利用灰度关联分析,将M、MUFS、MAFS作为评价指标,文件大小作为评价对象,得到评价指标-评价对象灰色关联度以及评价指标所占权重,将FM、FMUFS、FMAFS与对应权重相乘,得出文件分界点。实验结果表明,CutGAR在M、MUFS 和MAFS三者之间取得平衡,可以有效确定文件分界点,提升小文件处理性能。
关键词:
Hadoop 分布式文件系统;小文件;文件分界点;CutGAR;灰色关联分析
0 引言
云计算是集分布式计算、并行计算、网格计算、虚拟化技术于一体的商业计算模型,在整合大量计算资源与存储资源基础上,向用户提供按需计算能力和存储空间等服务[1]。Hadoop是近几年发展比较成熟的云计算平台之一,作为一种开源软件框架,凭借其可靠性、可扩展性和分布式的计算和存储而迅速发展。
Hadoop通过底层的分布式文件系统(Hadoop Distributed File System, HDFS),对外提供数据存储和访问[2]。HDFS基于优化大文件流的数据访问模式而设计,忽视了小文件(指比HDFS数据块(默认为64MB)小很多的文件)的存储和访问。实际应用存在HDFS存储海量小文件的需求,如FaceBook每天更新的文件数据达500TB,主要来源于用户上传的图片以及访问日志等小文件,这些小文件集中在100KB左右,具有海量、多样和动态变化等特征。
为解决HDFS小文件问题,传统方法将大量小文件合并成大文件,文献[3]利用Hadoop自带工具Hadoop Archive,将多个小文件打包。文献[4]提出一种前端关系数据库管理系统(Relational DataBase Management System, RDBMS)和后端Hadoop云存储相结合的方案,在RDBMS完成小文件合并,将合并形成的大文件存储到Hadoop云端。针对BlueSky System(中国电子教学共享系统)PPT课件存储问题,文献[5]提出将属于同一课程的小文件合并大文件,结合预取机制,提高系统存储和访问效率。文献[3-5]所提小文件合并方法都是基于事先已知的文件关联或时间关联,针对这一问题,文献[6]提出了一种动态的基于文件历史访问记录的文件关联合并方法――SmartFS(Smart File System), SmartFS通过分析小文件访问日志,获得用户访问行为,建立文件关联模型,根据文件关联模型的预取算法提高文件访问效率。然而,以上方法,未对小文件进行明确定义,文件分界点比较模糊,针对这一问题,文献[7]提出将16MB作为文件分界点的方法,然而该方法未对文件分界点的选取,进行任何科学说明,缺乏科学依据。文献[8]提出一种测试文件分界点的方法MFPS(MB of Accessed Files per Second)。MFPS利用构造的23个数据集,测试不同大小文件的读取速度。实验结果表明,前8个数据集的文件读取速度大致处于一条直线上,呈线性增长趋势,后15数据集的文件读取速度大致处于一条水平线,对前8个点和后15个点分别进行线性拟合,取拟合后两直线交点作为文件分界点。然而该方法只考虑文件大小与文件读取速度影响,忽略了集群中其他因素,例如NameNode内存的消耗。
灰色关联分析(Grey Relational Analysis),旨在分析和确定系统因素间的影响程度或因素对系统主行为的贡献测度,其广泛应用于各种领域,文献[9]利用灰色关联分析进行属性约减,提高数据挖掘的效率和精度。文献[10]结合灰度关联分析和支持向量机制,提出一种新的预测模型(Grey Relational Analysis and SVM, GRSVM),GRVSM用于分析多维因素之间关系,提高预测精确度。文献[11]通过改进灰色关联分析对仿真数据综合一致性进行检验,其综合考虑数据序列间的形状和距离。文献[12]结合灰色关联分析和DS证据理论(DempsterShafer theory of evidence)提出了一种新颖的模糊软集合决策方法,该方法具有良好稳定性,显著提高了置信度的确定度。
因此,本文基于灰色关联分析法,提出确定文件分界点的方法CutGAR(Cutoff Point via Grey Relational Analysis),解决HD
原创力文档


文档评论(0)