汤文君-GenAI时代从容应对数据驱动的AI带来的IO挑战.docxVIP

  • 0
  • 0
  • 约8.49千字
  • 约 35页
  • 2026-03-23 发布于浙江
  • 举报

汤文君-GenAI时代从容应对数据驱动的AI带来的IO挑战.docx

GenAI时代,从容应对数据驱动的AI带来的I/O挑战

GenAI时代,

从容应对数据驱动的AI带来的I/O挑战

演讲人:汤文军

Alluxio资深架构师

AI所带来的的IO挑战01IO挑战的解决思路——Alluxio介绍目录02Alluxio技术架构

AI所带来的的IO挑战

01

IO挑战的解决思路——Alluxio介绍

目录

02

Alluxio技术架构

03

典型应用场景

04

0

LLM性能受算力、数据规模和参数驱动=I/O变得至关重要Sc

LLM性能受算力、数据规模和参数驱动=I/O变得至关重要

ScalingLaw:大语言模型(LLM)训练的性能受到训练过程中不断增长的token数量、模型检查点(checkpoint)大小的驱动。

*来源:OpenAI:ScalingLawsforNeuralLanguageModels:/pdf/2001.08361.pdf

Token呈指数级增长=访问数据集需要更快的I/OLLM

Token呈指数级增长=访问数据集需要更快的I/O

LLM训练需要大量数据(数十亿至15万亿token)。

随着模型扩容,需要更快、更高效的I/O来应对数据集的快速增长。

?

?

*图:人工生成公共文本的有效存量以及用于知名大语言模型训练的数据集规模的预测

来源:Willwerunoutofdata?Limi

文档评论(0)

1亿VIP精品文档

相关文档