面向云计算的高性能重复数
据删除技术
付印金
陆军工程大学网络技术重点实验室
Email: fuyinjin@sina.cn
1
数据驱动应用无处不在
◼ 科学研究
◆基因组计划
◆LHC加速器
◆地球与空间探测
◼ 企业应用
◆邮件、文档
◆ 日志
◆交易记录
◼ Web数据
◆文本、图像、视频
◆Blog、点击流
2
大数据管理挑战
2020:44ZB
ZB=1021字节
18 2013:4.4ZB
EB=10 字节
2009:0.8ZB
15
PB=10 字节
TB=1012字节
9
GB=10 字节
6
MB=10 字节
数据构成的多样化和复杂化
Source: IDC 2014, the digital universe is doubling in size every two years.
3
云计算与大数据
◼ 云存储是大数据的主要存储管理方式
◼ 数据存储集中化
◆云接触数据量
◼20% →40%
◆企业数据产生量 2013年 2020年
20%
◼占85% 40%
◼存储空间资源趋紧
◆可用存储容量与总数
据量的比例
◼33% → 15%
Source: IDC 2014
4
存储空间效率问题
◼传统的存储环境
➢企业存储空间的平均利用率在50%以下,这个
数字还没有除去提高可靠性的存储冗余配置。
(2009年Symantec的吴锡源,2010年IBM的金微)
◼提高存储效率
➢由于数据缩减技术 的广泛应用,企业存储空
间年增长率从2005-2007 年间的60%以上,到
2013-2017 年间降至35%-40% 。
(IDC: Efficiency will hold down storage growth, 2013)
5
数据压缩技术分类
通用数据压缩(均为无损压缩) 多媒体数据压缩(无损和有损压缩)
基于统计模型
您可能关注的文档
最近下载
- 电能质量PPT课件.ppt
- 132_中药饮片炮制及生产管理.pptx VIP
- SimBank银行模拟教学平台实习指导书.pdf VIP
- 深度解析(2026)《JBT 12968-2025盾构机用变频调速三相异步电动机技术规范》.pptx VIP
- 统计学原理与实务.pdf VIP
- 冻干SOP(最新整理版).docx VIP
- DB11T 1213-2015 自来水单位产量能源消耗限额 .docx VIP
- (正式版)G-B∕T 43909-2024 叉车属具 安全要求.docx VIP
- 中国慢性乙型肝炎功能性(临床)治愈临床实践专家共识(2025)解读PPT课件.pptx VIP
- 监理概论教案.pdf VIP
原创力文档

文档评论(0)