GenAI时代，从容应对数据驱动的AI带来的IO挑战-Alluxio+汤文君.docx

下载文档

0
0
约7.85千字
约 69页
2025-01-08 发布于山西
举报
版权申诉
保障服务

GenAI时代，从容应对数据驱动的AI带来的IO挑战-Alluxio+汤文君.docx

1、本文档共69页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

GenAI时代，

从容应对数据驱动的AI带来的I/O挑战

演讲人：汤文军

Alluxio资深架构师

.AI所带来的的IO挑战

.IO挑战的解决思路——Alluxio介绍

.Alluxio技术架构

典型应用场景

LLM性能受算力、数据规模和参数驱动=I/O变得至关重要

ScalingLaw：大语言模型（LLM）训练的性能受到训练过程中不断增长的token数量、模型检查点(checkpoint)大小的驱动。

*来源:OpenAI:ScalingLawsforNeuralLanguageModels:htps://pdf/2001.08361.pdf

Token呈指数级增长=访问数据集需要更快的I/O

LLM训练需要大量数据（数十亿至15万亿token）。

随着模型扩容，需要更快、更高效的I/O来应对数据集的快速增长。

*图：人工生成公共文本的有效存量以及用于知名大语言模型训练的数据集规模的预测

来源:Wilwerunoutofdata?LimitsofLLMscalingbasedonhuman-generateddata:htps://pdf/2211.04325

模型规模呈指数级增长=更快的Checkpointing

大模型的规模从7B到1T不等

随着大模型参数的增多，为避免训练进度丢失，训练过程中进行频繁的checkpointing十分关键

要高效管理和存储checkpoint，确保模型更新不会成为训练速度的瓶颈，I/O性能至关重要

*图:LLM模型规模逐年增长情况*图:训练作业故障

来源:

*HuggingFace:htps:/huggingface.co/blog/large-language-models**Meta:htps://watch?v=ELIcy6flgQI

面向AI的数据编排平台

高性能的数据访问Alluxio数据平台架构

高性能的数据访问

统一的全

统一的全局视图

雪TensorFlow

Alluxio

Alluxio数据平台

数据管理全局数据访问分布式缓存

数据管理

全局数据访问

分布式缓存

DevOps能力

性能和可扩展性企业安全与合规

性能和可扩展性

企业安全与合规

巴

云本地混合云跨云

AlluxioAI模型训练场景

去中心化架构，支持100亿以上对象

降低数据工程复杂性和成本

模型迭代更高效

2-8x数据访问速度提升

集训可扩展性高、训练任务容错性高

在机器学习工作流中部署Alluxio

模型训练扩展到100亿对象以上，满足AI需求

模型训练

?[降本]可在标准的低成本存储部署运行

?[增效]训练数据访问加速，GPU利用率保持90%以上

?[灵活]减少数据副本，统一数据访问，灵活对接GPU集群?[易用]按需自动加载、缓存替换，简化运维复杂度

模型部署支持超高并发的模型服务（从训练集群到推理集群）

模型部署

?[快速部署]生产环境下的部署时间降低至原先的1/2-1/3?[规避瓶颈]减轻网络带宽竞争，降低底层存储负载

?[高效管理]根据使用模式实施数据预加载

核心架构技术

ML/AIGPU训练对IO的要求

编程接口：POSIX子集

数据格式：结构化（Parquet）和非结构化（音频、图片、视频、文本）

元数据可扩展性：支持数十亿个文件（常见于计算机视觉/多模态训练）

I/O并发性：高并发的读取访问

可靠性：在持续数天或数周的训练过程中保持高可靠性

写入：快速Checkpointing（顺序写）

让我们回顾一下关键的设计选择

基本架构:完全基于一致性哈希的分片

雷Tensor

雷TensorFlow

大数据ETL大数据查询模型训练

基于一致性哈希选择Worker

ABC

AlluxioWorker1

您可能关注的文档

文档评论（0）

4A方案 + 关注: 实名认证

服务提供商

擅长策划，|商业地产|住房地产|暖场活动|美陈|圈层活动|嘉年华|市集|生活节|文化节|团建拓展|客户答谢会

咨询作者（1393人已咨询）已休息

1亿VIP精品文档

更多 >

GenAI时代，从容应对数据驱动的AI带来的IO挑战-Alluxio+汤文君.docx