- 1、本文档共43页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
基于eBPF和Agent构建
LLM训练推理优化体系
向阳云杉网络;
清华大学博士,云杉网络研发VP,DeepFlow开源社区负责人。曾在国
际顶级学术会议ACMSIGCOMM、ACMIMC上发表可观测性方向的学术论文,现负责可观测性产品DeepFlow,致力于打造一款为云原生和AI应用而生的零侵扰可观测性产品。;
1.背景:训练和推理的效率挑战
2.现状:传统解决方案和工具的问题
3.方法:eBPF构建零侵扰可观测性
4.实践:PyTorch全栈剖析和追踪
5.探索:Agent自动优化ML代码;
PART01
背景:训练和推理的效率挑战;;;
Llama;;
Perception-Planning-Control
BEV-OCC-Transformer
RobotOperatingSystem2(ROS2)-BasedFrameworksforIncreasingRobotAutonomy:ASurvey
端-自动驾驶、具身智能(ROS2)的端到端
低时延和高稳定性要求;;
Span;
PART02
现状:传统解决方案和工具的问题;
DCGMPrometheusExporter;;
RDMA网络:网卡/交换机指标、拨测
Meta:NetworkAI/ML应用
Observability(K8sPod)forAI/HPC
Training
Workflows
私有基础设施公有云
网卡/交换机指标RDMA网络
粒度粗
公有基础设施
RDMA网络
是性能黑盒
AI/ML应用
(K8sPod);
LangSmith
支持的语言有限、需要修改代码;
PART03
方法:eBPF构建零侵扰可观测性;
ProcessEvents
FileEventsSocketEvents
KernelEvents
HWEvents;
ZeroCode
FullStack;
业内探索:eBPFProfilingTracing;
使用eBPF实现持续剖析的技术挑战;
#0__select_nocancel()
#1pysleep
#2time_sleep
#3call_function
#4PyEval_EvalFrameEx
#5fast_function
#6call_function
#7PyEval_EvalFrameEx
#8fast_function
#9call_function
#10PyEval_EvalFrameEx
#11fast_function
#12call_function
#13PyEval_EvalFrameEx
#14fast_function
#15call_function
#16PyEval_EvalFrameEx
#17_PyEval_EvalCodeWithName
#18PyEval_EvalCodeEx
#19PyEval_EvalCode;
①eBPFuprobe
Hookcuda_malloc获取显存申请调用栈
③eBPFuprobe
Hookcuda_free
获取释放的显存地址;;
PART04
实践:PyTorch全栈剖析和追踪;
DeepFlow中的eBPFAutoProfiling;
Span;
到底??个函数调用栈在CPU、GPU上花费的时间最长?到底一个Task的哪个Worker拖累了整体的速度?
零侵扰、全栈回答上述问题
CPUGPU全栈剖析:
√Python业务函数
√PythonvLLM函数
√PythonPyTorch函数
√C/C++Lib函数
√CUDA入口函数;
按K8sLabel过滤,对比同一个Task的所有Pod
CUDA函数耗时;;
CUDAmem-alloc显存申请火焰图;
CUDAmem-inuse显存实时用量火焰图;
3.COMM.Profiling;
Function;;
在线推理服务、端侧ROS2推理服务;;
PART05
探索:Agent自动优化ML代码;
如何快速高效的理解全栈函数;;
利用LLMAgent自动优化ML代码
您可能关注的文档
- 基于eBPF和Agent构建LLM训练推理优化体系.docx
- 2025年春招职场安全感洞察报告-脉脉.docx
- 基于物理条件约束的可信视觉生成大模型.docx
- 2025年上半年母婴玩具选品参考报告-Shopee.docx
- AI辅助测试开发端到端研发提效.docx
- 2025天猫国际跨境酒白皮书.docx
- 2025年睡眠白皮书-睡眠焕新计划-OPPO.docx
- SUBLLM新架构:文本下采样机制革新大语言模型效率.docx
- 2025年中国人才激励白皮书.docx
- 2024年中国即时配送行业趋势白皮书.docx
- Unit5GoodmannersTask课件牛津译林版英语八年级下册(1).pptx
- Unit1Schoolthings第2课时(课件)-译林版(级下册.pptx
- CATIADMU运动机构仿真教程.pptx
- 自然环境第2课时课件-七年级地理下学期人教版(2024).pptx
- 实数及其简单运算第2课时课件人教版数学七年级下册.pptx
- 中考一轮复习生物的进化课件.pptx
- Unit5SectionA1a1d课件人教版英语七年级下册.pptx
- 用坐标表示平移第1课时用坐标的变化表示平移课件人教版(级下册.pptx
- Unit6RainorShineSectionA(GrammarFocus)课件人教版英语七年级下册.pptx
- 河南省开封市五县联考2024-2025学年高二下学期开学质量检测试题政治.docx
文档评论(0)