大模型学习资料包PPT20230914.pdfVIP

  • 2
  • 0
  • 约9.3千字
  • 约 20页
  • 2026-04-21 发布于浙江
  • 举报

高性能LLM推理框架

设计与实现

张志-商汤科技-研发工程师

SensetimeHPCGroup

DataFunSummit#2023

2024/11/221

PPL.LLMBenchmark

•QPS:每秒可处理的用户请求数量

(query/sec

•Thoughput:模型吞吐量(token/sec

2024/11/22SensetimeHPCGroup2

PPL.LLMBenchmark

•QPS:每秒可处理的用户请求数量

(query/sec

•Thoughput:模型吞吐量(token/sec

2024/11/22SensetimeHPCGroup3

LLMInference

•PPL.LLM将推理分成

文档评论(0)

1亿VIP精品文档

相关文档