2025AI时代的存储基石.docx

下载文档

4
0
约5.16万字
约 79页
2025-04-07 发布于北京
举报
版权申诉
保障服务

2025AI时代的存储基石.docx

1、本文档共79页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

AI时代的存储基石

目录CONTENTS

前言：存储是人工智能的关键基座 04

第一章：AI与存储技术开启未来数据新纪元 09

典型AI应用带来的存储增长趋势 12

大模型场景下的以存强算 12

自动驾驶3.0时代的数据循环 14

边缘AI存储成为热点 17

存储技术的挑战与机遇 17

存储系统的智能化 18

算力与存力高效协同 19

计算存储协同促进AI落地 19

第二章：AI应用场景与存储需求 21

准备数据 22

训练过程 24

检查点及其作用 24

数据量与读写压力 25

检查点的保存 27

检查点的恢复 29

推理过程 33

KVCache及容量需求 33

RAG与向量数据库 35

内容生成 37

生成式AI促进数据生产 39

边缘侧计算和存储能力增长 40

数据留存与复用 41

2小结 42

第三章：AI应用中的存储层级 43

存储层级架构 44

HBM与SRAM 45

存储容量 46

HDD 47

SSD 49

存取性能 52

顺序读写 52

随机读取 53

随机写入 54

耐久性 55

分层存储 56

第四章：技术演进与生态 59

容量趋势 60

硬盘 60

SSD 62

性能趋势 64

多磁臂 65

FDP 67

统一生态 68

绿色节能 71

功耗水平 72

增长趋势 72

液冷选项 74

长效节能 74

硬盘再生 76

3结语：AI重新定义数据存储的量与质 77

因“数”而变，以存强算

存储是人工智能的关键基座

自2022年底通用大模型技术取得突破以来，人工智能领域进入发展快车道。2024

年2月发布的多模态生成式模型，标志着基础大模型正从单一数据处理向多维度信息整合演进。这类系统通过融合文本、图像、音频等多模态数据，实现更接近人类认知的复杂信息处理能力，在医疗、交通、工业制造和气象预测等领域展现出显著应用价值。近期，得到广泛采用的开源大模型通过系统性优化，在保持高性能的同时大幅降低训练成本，引发行业广泛关注。而另一技术方案则通过大规模算力集群的部署，验证了算法效率与算力规模协同发展的重要性，为行业提供了多样化的技术路径参考。

从2018年始，希捷参与了益企研究院发起的数字中国万里行活动。几年来，数字中国万里行团队足迹遍布“东数西算”八大枢纽节点，考察了云计算、自动驾驶、高教、金融、制造等相关行业上百个数据中心，见证了云计算、人工智能高速发展下的技术应用趋势和架构演进。

△JasonFeist希捷科技市场营销高级副总裁

2024年，希捷科技再次联合益企研究院，针对不同行业场景深入调研和解读。我们发现算力和存力的紧密结合，正推动着数字经济高质量发展。

基于本次调研，我们认为以下三个方面值得在更大的范围内进行探讨。

首先，随着数据的爆炸式增长，生成式AI应用走向普及，更丰富的内容、更频繁的复制以及更持久的数据留存，带来了更多的数据创建和存储需求。

根据市场研究机构IDC的预测，到2028年，全球预计将产生394ZB数据。而现代数据中心存储的所有数据中，有80%～90%是非结构化数据，包括文本文件、图像、视频和电子邮件等，它们无法规则地纳入到传统数据库中。在AI赋能业务的过程中，企业利用数据的能力提升，带动数据存储、管理、使用的需求增长。用户越来越关注数据存储容量、数据访问速度、设备与系统的能效等方面。

△IDC：全球生成的数据中，只有不到5%会被保存下来。预计到2028年，存储在云端的数据约10ZB（具体构成如上图，HDD占比约80%，是SSD的6倍多），企业端约6ZB，消费端约4ZB

更重要的是，高质量数据是构建可信人工智能的支柱。数据的准确性、完整性、一致性和时效性直接影响着AI模型的训练效果和决策的可靠性。不准确的数据可能导致模型产生错误的预测和判断。反之，良好的数据管理，跟踪模型历史和数据脉络不仅可以帮助企业实现精准决策，还确保企业遵守人工智能法规。同时可以避免企业依赖于单一来源或者商业利益驱动下的专有数据，使AI模型更加全面准确地反映现实世界情况，确保推理的可确定性。

其次，AI工作负载在不同阶段需要不同特点和类型的算力、存力支撑。

在大型数据中心部署中，AI相关数据在使用和创建的无限循环中流动。工作流程的每个阶段都需要不同组合的内存和存储设备。

△AI数据从源数据到训练模型、创建内容、存储内容、保留数据、重复利用数据的无限循环

AI相关数据周而复始的无限循环从定义、查找和准备数据开始。通过网络访问的存储便于共享和扩展，其中硬盘（HDD）