网站大量收购闲置独家精品文档,联系QQ:2885784924

硅基流动高性能低成本的大模型推理云实践-陈凯.docx

硅基流动高性能低成本的大模型推理云实践-陈凯.docx

  1. 1、本文档共79页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

硅基流动高性能大模型推理云实践

陈凯

2024-08

????????

内容提纲

?大模型推理云背景

?供给侧加速进化的大模型

?需求测多样化的大模型需求

?大模型推理云挑战

?大模型推理挑战

?推理上云的挑战

?大模型推理云实践

?核心引擎建设

?推理云平台建设

?总结与回顾

????????

大模型推理云背景:加速进化的大模型能力(以LLM为例)

1./visualizations/the-rise-of-generative-ai-large-language-modelske-chatgp

2.https://huggingface.co/spaces/lmsys/chatbot-arena-leaderboard,2024年8月15日检索。

????????

大模型推理云背景:多样化的大模型需求(以LLM为例)

1.https://openrouter.ai/rankings,2024年8月15日检索。

2./100-gen-ai-apps/,2024年8月15日检索。

内容提纲

?大模型推理云背景

?供给侧加速进化的大模型

?需求测多样化的大模型需求

?大模型推理云挑战

?推理挑战

?云上挑战

?大模型推理云实践

?核心引擎建设

?模型云建设

?总结与回顾

????????

推理挑战:需要严苛大模型而昂贵的硬件资源

推理挑战:

需要严苛

大模型

KVcachesize=(batch_size)*(sequence_length)*2*(num_layers)*(hidden_size)*(pricision_in_bytes)

KVcachesize=(batch_size)*(sequence_length)*2*(num_layers)*(hidden_size)*(pricision_in_bytes)(上图使用fp16,其中乘数2包含了K和V的矩阵)

3./blog/mastering-llm-techniques-inference-optimization/

4.https://youtu.be/hMs8VNRy5Ys

????????

大模型推理挑战:本身是一个慢而昂贵的任务

1./cocktailpeanut/status/1815876634492457319

2./market/list

????????

大模型推理不可能三角:难满足质量好、模型快同时价格低

1.https://artificialanalysis.ai/models

2.https://www.aidancooper.co.uk/how-to-beat-proprietary-llms

3./cocktailpeanut/status/1815876634492457319

????????

大模型推理挑战:模型推理优化兼具理论和工程难点

????????

大模型推理云挑战:自部署模型服务的冷启挑战

1./

2./1962.html

大模型推理云挑战:

1./blog/reduce-cold-start-time-llm-inference

自部署模型服务的冷启挑战

????????

大模型推理云挑战:自部署服务的冷启、稳定性挑战

1./en-us/msoffice/forum/all/cannot-access-onenote-notebooks-error-message/8525998a-f8cd-4251-aee6-080b1b7be3d1

2./tensorflow/tensorflow/issues/19347

3./t/coredump-when-registering-a-dispatched-operator-in-c-with-cuda-backend-only/170415

内容提纲

?大模型推理云背景

?供给侧加速进化的大模型

?需求测多样化的大模型需求

?大模型推理云挑战

?推理挑战

?云上挑战

?大模型推理云实践

?核心引擎建设

?模型云建设

?总结与回顾

????????

大模型推理云SiliconCloud:生产就绪推理云服务

????????

大模型推理云SiliconCloud:生产就绪推理云服务

????????

大模型推理云SiliconCloud:生产就绪推理云服务

????????

大模型推理云SiliconCloud:生产就绪推理云服务

1./vis

文档评论(0)

4A方案 + 关注
实名认证
服务提供商

擅长策划,|商业地产|住房地产|暖场活动|美陈|圈层活动|嘉年华|市集|生活节|文化节|团建拓展|客户答谢会

1亿VIP精品文档

相关文档