- 1、本文档共79页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
AI时代的存储基石
目录CONTENTS
前言:存储是人工智能的关键基座 04
第一章:AI与存储技术开启未来数据新纪元 09
典型AI应用带来的存储增长趋势 12
大模型场景下的以存强算 12
自动驾驶3.0时代的数据循环 14
边缘AI存储成为热点 17
存储技术的挑战与机遇 17
存储系统的智能化 18
算力与存力高效协同 19
计算存储协同促进AI落地 19
第二章:AI应用场景与存储需求 21
准备数据 22
训练过程 24
检查点及其作用 24
数据量与读写压力 25
检查点的保存 27
检查点的恢复 29
推理过程 33
KVCache及容量需求 33
RAG与向量数据库 35
内容生成 37
生成式AI促进数据生产 39
边缘侧计算和存储能力增长 40
数据留存与复用 41
2小结 42
2
第三章:AI应用中的存储层级 43
存储层级架构 44
HBM与SRAM 45
存储容量 46
HDD 47
SSD 49
存取性能 52
顺序读写 52
随机读取 53
随机写入 54
耐久性 55
分层存储 56
第四章:技术演进与生态 59
容量趋势 60
硬盘 60
SSD 62
性能趋势 64
多磁臂 65
FDP 67
统一生态 68
绿色节能 71
功耗水平 72
增长趋势 72
液冷选项 74
长效节能 74
硬盘再生 76
3结语:AI重新定义数据存储的量与质 77
3
因“数”而变,以存强算
存储是人工智能的关键基座
自2022年底通用大模型技术取得突破以来,人工智能领域进入发展快车道。2024
年2月发布的多模态生成式模型,标志着基础大模型正从单一数据处理向多维度信息整合演进。这类系统通过融合文本、图像、音频等多模态数据,实现更接近人类认知的复杂信息处理能力,在医疗、交通、工业制造和气象预测等领域展现出显著应用价值。近期,得到广泛采用的开源大模型通过系统性优化,在保持高性能的同时大幅降低训练成本,引发行业广泛关注。而另一技术方案则通过大规模算力集群的部署,验证了算法效率与算力规模协同发展的重要性,为行业提供了多样化的技术路径参考。
从2018年始,希捷参与了益企研究院发起的数字中国万里行活动。几年来,数字中国万里行团队足迹遍布“东数西算”八大枢纽节点,考察了云计算、自动驾驶、高教、金融、制造等相关行业上百个数据中心,见证了云计算、人工智能高速发展下的技术应用趋势和架构演进。
△JasonFeist希捷科技市场营销高级副总裁
2024年,希捷科技再次联合益企研究院,针对不同行业场景深入调研和解读。我们发现算力和存力的紧密结合,正推动着数字经济高质量发展。
基于本次调研,我们认为以下三个方面值得在更大的范围内进行探讨。
首先,随着数据的爆炸式增长,生成式AI应用走向普及,更丰富的内容、更频繁的复制以及更持久的数据留存,带来了更多的数据创建和存储需求。
根据市场研究机构IDC的预测,到2028年,全球预计将产生394ZB数据。而现代数据中心存储的所有数据中,有80%~90%是非结构化数据,包括文本文件、图像、视频和电子邮件等,它们无法规则地纳入到传统数据库中。在AI赋能业务的过程中,企业利用数据的能力提升,带动数据存储、管理、使用的需求增长。用户越来越关注数据存储容量、数据访问速度、设备与系统的能效等方面。
△IDC:全球生成的数据中,只有不到5%会被保存下来。预计到2028年,存储在云端的数据约10ZB(具体构成如上图,HDD占比约80%,是SSD的6倍多),企业端约6ZB,消费端约4ZB
更重要的是,高质量数据是构建可信人工智能的支柱。数据的准确性、完整性、一致性和时效性直接影响着AI模型的训练效果和决策的可靠性。不准确的数据可能导致模型产生错误的预测和判断。反之,良好的数据管理,跟踪模型历史和数据脉络不仅可以帮助企业实现精准决策,还确保企业遵守人工智能法规。同时可以避免企业依赖于单一来源或者商业利益驱动下的专有数据,使AI模型更加全面准确地反映现实世界情况,确保推理的可确定性。
其次,AI工作负载在不同阶段需要不同特点和类型的算力、存力支撑。
在大型数据中心部署中,AI相关数据在使用和创建的无限循环中流动。工作流程的每个阶段都需要不同组合的内存和存储设备。
△AI数据从源数据到训练模型、创建内容、存储内容、保留数据、重复利用数据的无限循环
AI相关数据周而复始的无限循环从定义、查找和准备数据开始。通过网络访问的存储便于共享和扩展,其中硬盘(HDD)
文档评论(0)