- 1、本文档共69页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
GenAI时代,
从容应对数据驱动的AI带来的I/O挑战
演讲人:汤文军
Alluxio资深架构师
.
.AI所带来的的IO挑战
目录
目录
.IO挑战的解决思路——Alluxio介绍
.
.Alluxio技术架构
典型应用场景
04
0
LLM性能受算力、数据规模和参数驱动=I/O变得至关重要
ScalingLaw:大语言模型(LLM)训练的性能受到训练过程中不断增长的token数量、模型检查点(checkpoint)大小的驱动。
*来源:OpenAI:ScalingLawsforNeuralLanguageModels:htps://pdf/2001.08361.pdf
Token呈指数级增长=访问数据集需要更快的I/O
LLM训练需要大量数据(数十亿至15万亿token)。
随着模型扩容,需要更快、更高效的I/O来应对数据集的快速增长。
*图:人工生成公共文本的有效存量以及用于知名大语言模型训练的数据集规模的预测
来源:Wilwerunoutofdata?LimitsofLLMscalingbasedonhuman-generateddata:htps://pdf/2211.04325
模型规模呈指数级增长=更快的Checkpointing
大模型的规模从7B到1T不等
随着大模型参数的增多,为避免训练进度丢失,训练过程中进行频繁的checkpointing十分关键
要高效管理和存储checkpoint,确保模型更新不会成为训练速度的瓶颈,I/O性能至关重要
*图:LLM模型规模逐年增长情况*图:训练作业故障
来源:
来源:
*HuggingFace:htps:/huggingface.co/blog/large-language-models**Meta:htps://watch?v=ELIcy6flgQI
面向AI的数据编排平台
高性能的数据访问Alluxio数据平台架构
高性能的数据访问
统一的全
统一的全局视图
雪TensorFlow
Alluxio
Alluxio数据平台
数据管理全局数据访问分布式缓存
数据管理
全局数据访问
分布式缓存
DevOps能力
DevOps能力
性能和可扩展性企业安全与合规
性能和可扩展性
企业安全与合规
巴
云本地混合云跨云
AlluxioAI模型训练场景
去中心化架构,支持100亿以上对象
降低数据工程复杂性和成本
模型迭代更高效
2-8x数据访问速度提升
集训可扩展性高、训练任务容错性高
在机器学习工作流中部署Alluxio
模型训练扩展到100亿对象以上,满足AI需求
模型训练
?
?[降本]可在标准的低成本存储部署运行
?[增效]训练数据访问加速,GPU利用率保持90%以上
?[灵活]减少数据副本,统一数据访问,灵活对接GPU集群?[易用]按需自动加载、缓存替换,简化运维复杂度
模型部署支持超高并发的模型服务(从训练集群到推理集群)
模型部署
?
?[快速部署]生产环境下的部署时间降低至原先的1/2-1/3?[规避瓶颈]减轻网络带宽竞争,降低底层存储负载
?[高效管理]根据使用模式实施数据预加载
核心架构技术
ML/AIGPU训练对IO的要求
编程接口:POSIX子集
数据格式:结构化(Parquet)和非结构化(音频、图片、视频、文本)
元数据可扩展性:支持数十亿个文件(常见于计算机视觉/多模态训练)
I/O并发性:高并发的读取访问
可靠性:在持续数天或数周的训练过程中保持高可靠性
写入:快速Checkpointing(顺序写)
让我们回顾一下关键的设计选择
基本架构:完全基于一致性哈希的分片
雷Tensor
雷TensorFlow
大数据ETL大数据查询模型训练
基于一致性哈希选择Worker
ABC
A
B
C
AlluxioWorker1
您可能关注的文档
- 2024关于中国青年的真相白皮书.docx
- 2024年按摩足疗行业白皮书-艾瑞咨询-202501.docx
- 2024年北京市高校食堂食物浪费现状及转型策略报告.docx
- 2024年中国宠物管理白皮书-西部宠物生命科学研究院-202412.docx
- 2025年A股投资策略:试玉满三,辨才有期.docx
- Agent技术在小爱同学中的应用-小米+杞坚玮.docx
- AI+Agent在边缘云的探索与实践-火山引擎+谢皓.docx
- AI+产品商业化路径的多角度探索与实践-秘塔科技+王益为.docx
- AI+大数据:打造新一代数据开发治理一体化平台-腾讯云+谭杰轩.docx
- AI大模型浪潮下的行业应用新模式和关键实现路径-北京智源+周华.docx
文档评论(0)