面向云计算的高性能重复数据删除技术.pdf

面向云计算的高性能重复数 据删除技术 付印金 陆军工程大学网络技术重点实验室 Email: fuyinjin@sina.cn 1 数据驱动应用无处不在 ◼ 科学研究 ◆基因组计划 ◆LHC加速器 ◆地球与空间探测 ◼ 企业应用 ◆邮件、文档 ◆ 日志 ◆交易记录 ◼ Web数据 ◆文本、图像、视频 ◆Blog、点击流 2 大数据管理挑战 2020:44ZB ZB=1021字节 18 2013:4.4ZB EB=10 字节 2009:0.8ZB 15 PB=10 字节 TB=1012字节 9 GB=10 字节 6 MB=10 字节 数据构成的多样化和复杂化 Source: IDC 2014, the digital universe is doubling in size every two years. 3 云计算与大数据 ◼ 云存储是大数据的主要存储管理方式 ◼ 数据存储集中化 ◆云接触数据量 ◼20% →40% ◆企业数据产生量 2013年 2020年 20% ◼占85% 40% ◼存储空间资源趋紧 ◆可用存储容量与总数 据量的比例 ◼33% → 15% Source: IDC 2014 4 存储空间效率问题 ◼传统的存储环境 ➢企业存储空间的平均利用率在50%以下,这个 数字还没有除去提高可靠性的存储冗余配置。 (2009年Symantec的吴锡源,2010年IBM的金微) ◼提高存储效率 ➢由于数据缩减技术 的广泛应用,企业存储空 间年增长率从2005-2007 年间的60%以上,到 2013-2017 年间降至35%-40% 。 (IDC: Efficiency will hold down storage growth, 2013) 5 数据压缩技术分类 通用数据压缩(均为无损压缩) 多媒体数据压缩(无损和有损压缩) 基于统计模型

文档评论(0)

1亿VIP精品文档

相关文档