网站大量收购独家精品文档,联系QQ:2885784924

2025AI时代的存储基石.docx

  1. 1、本文档共79页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

AI时代的存储基石

目录CONTENTS

前言:存储是人工智能的关键基座 04

第一章:AI与存储技术开启未来数据新纪元 09

典型AI应用带来的存储增长趋势 12

大模型场景下的以存强算 12

自动驾驶3.0时代的数据循环 14

边缘AI存储成为热点 17

存储技术的挑战与机遇 17

存储系统的智能化 18

算力与存力高效协同 19

计算存储协同促进AI落地 19

第二章:AI应用场景与存储需求 21

准备数据 22

训练过程 24

检查点及其作用 24

数据量与读写压力 25

检查点的保存 27

检查点的恢复 29

推理过程 33

KVCache及容量需求 33

RAG与向量数据库 35

内容生成 37

生成式AI促进数据生产 39

边缘侧计算和存储能力增长 40

数据留存与复用 41

2小结 42

2

第三章:AI应用中的存储层级 43

存储层级架构 44

HBM与SRAM 45

存储容量 46

HDD 47

SSD 49

存取性能 52

顺序读写 52

随机读取 53

随机写入 54

耐久性 55

分层存储 56

第四章:技术演进与生态 59

容量趋势 60

硬盘 60

SSD 62

性能趋势 64

多磁臂 65

FDP 67

统一生态 68

绿色节能 71

功耗水平 72

增长趋势 72

液冷选项 74

长效节能 74

硬盘再生 76

3结语:AI重新定义数据存储的量与质 77

3

因“数”而变,以存强算

存储是人工智能的关键基座

自2022年底通用大模型技术取得突破以来,人工智能领域进入发展快车道。2024

年2月发布的多模态生成式模型,标志着基础大模型正从单一数据处理向多维度信息整合演进。这类系统通过融合文本、图像、音频等多模态数据,实现更接近人类认知的复杂信息处理能力,在医疗、交通、工业制造和气象预测等领域展现出显著应用价值。近期,得到广泛采用的开源大模型通过系统性优化,在保持高性能的同时大幅降低训练成本,引发行业广泛关注。而另一技术方案则通过大规模算力集群的部署,验证了算法效率与算力规模协同发展的重要性,为行业提供了多样化的技术路径参考。

从2018年始,希捷参与了益企研究院发起的数字中国万里行活动。几年来,数字中国万里行团队足迹遍布“东数西算”八大枢纽节点,考察了云计算、自动驾驶、高教、金融、制造等相关行业上百个数据中心,见证了云计算、人工智能高速发展下的技术应用趋势和架构演进。

△JasonFeist希捷科技市场营销高级副总裁

2024年,希捷科技再次联合益企研究院,针对不同行业场景深入调研和解读。我们发现算力和存力的紧密结合,正推动着数字经济高质量发展。

基于本次调研,我们认为以下三个方面值得在更大的范围内进行探讨。

首先,随着数据的爆炸式增长,生成式AI应用走向普及,更丰富的内容、更频繁的复制以及更持久的数据留存,带来了更多的数据创建和存储需求。

根据市场研究机构IDC的预测,到2028年,全球预计将产生394ZB数据。而现代数据中心存储的所有数据中,有80%~90%是非结构化数据,包括文本文件、图像、视频和电子邮件等,它们无法规则地纳入到传统数据库中。在AI赋能业务的过程中,企业利用数据的能力提升,带动数据存储、管理、使用的需求增长。用户越来越关注数据存储容量、数据访问速度、设备与系统的能效等方面。

△IDC:全球生成的数据中,只有不到5%会被保存下来。预计到2028年,存储在云端的数据约10ZB(具体构成如上图,HDD占比约80%,是SSD的6倍多),企业端约6ZB,消费端约4ZB

更重要的是,高质量数据是构建可信人工智能的支柱。数据的准确性、完整性、一致性和时效性直接影响着AI模型的训练效果和决策的可靠性。不准确的数据可能导致模型产生错误的预测和判断。反之,良好的数据管理,跟踪模型历史和数据脉络不仅可以帮助企业实现精准决策,还确保企业遵守人工智能法规。同时可以避免企业依赖于单一来源或者商业利益驱动下的专有数据,使AI模型更加全面准确地反映现实世界情况,确保推理的可确定性。

其次,AI工作负载在不同阶段需要不同特点和类型的算力、存力支撑。

在大型数据中心部署中,AI相关数据在使用和创建的无限循环中流动。工作流程的每个阶段都需要不同组合的内存和存储设备。

△AI数据从源数据到训练模型、创建内容、存储内容、保留数据、重复利用数据的无限循环

AI相关数据周而复始的无限循环从定义、查找和准备数据开始。通过网络访问的存储便于共享和扩展,其中硬盘(HDD)

文档评论(0)

535600147 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:6010104234000003

1亿VIP精品文档

相关文档