- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
1
Tableofcontents
Introduction3
Keytermsataglance4
Theevolutionoflargelanguagemodels7
Challengesofinferenceserving9
Afull-stackapproachtoinferenceperformance10
Adualapproachtomodelefficiency12
1:Optimizingtheinferenceruntime(vLLM)12
2:OptimizingtheAImodel14
RedHatAI18
WhatisRedHatAI?18
OptimizingmodelswithRedHat20
Nextsteps22
Introduction
OptimizingAImodelinferenceisamongthemosteffectivewaystocutinfrastructurecosts,
reducelatency,andimprovethroughput,especiallyasorganizationsdeploylargemodels
inproduction.
Thise-bookintroducesthefundamentalsofinferenceperformanceengineeringandmodel
optimization,withafocusonquantization,sparsity,andothertechniquesthathelpreduce
computeandmemoryrequirements,aswellasruntimesystemslikeVirtualLargeLanguageModel
(vLLM),whichofferbenefitsforefficientinference.
ItalsooutlinestheadvantagesofusingRedHat’sopenapproach,validatedmodelrepository,and
toolssuchastheLLMCompressorandRedHat®AIInferenceServer.Whetheryou’rerunningon
graphicsprocessorunits(GPUs),TensorProcessingUnits(TPUs),orotheraccelerators,thisguide
offerspracticalinsightt
您可能关注的文档
- HEADLINER-从实验室到启动板-克服企业采用障碍.pdf
- HEADLINER-生成式人工智能时代的通用自主性.pdf
- HEADLINER-释放机密计算的力量保护使用中的数据.pdf
- HEADLINER-释放信任人工智能安全的蓝图.pdf
- SpotifyAI如何为发现上下文和新颖体验提供支持.pdf
- 超级智能代理带来灾难性风险科学家人工智能能否提供更安全的路径.pdf
- 创新洞察工作中的人工智能和机器人技术优先考虑员工福祉同时释放自动化的好处.pdf
- 创新洞察优化推理时代的人工智能堆栈.pdf
- 创新洞察与企业风险投资合作.pdf
- 对话中利用合成角色释放商业潜力数据驱动决策的未来.pdf
- 红帽STLPartner2025AI-RAN技术从概念热潮到商业应用的演进研究报告英文版20页.pdf
- 华兴资本2025年产业AI应用热力报告21页.pdf
- 郎瀚威will2025年ClaudeExcelWordPPT能力测试报告58页.pdf
- 蚂蚁研究院2025真实世界通证经济-通证化驱动的价值互联新范式报告54页.pdf
- 赛仕软件SAS2024迈向生成式AI未来之路政府成功战略路径研究报告英文版14页.pdf
- 三棵树2026空间美学设计趋势报告58页.pdf
- 深企投研究院2025光通信产业链研究报告-AI浪潮驱动高速光通信乘风破浪88页.pdf
- 世界旅游城市联合会WTCF2025世界旅游目的地竞争潜力指数报告中英文版70页.pdf
- 新联观察2025成都车展传播观察报告19页.pdf
- 中国信通院智能驱动增长人工智能客户关系管理AICRM系统研究报告2025年70页.pdf
最近下载
- 西门子S7-1500通过报文111实现对汇川SV660F伺服驱动器位置控制.docx VIP
- 通过InoDriverShop伺服调试软件连接汇川SV660F系列伺服的具体方法(以太网).docx VIP
- 12 《石钟山记》公开课一等奖创新教案统编版高中语文选择性必修下册.docx VIP
- 什么是智能体.docx VIP
- 2023年高考真题分类汇编:电磁学1.pdf VIP
- 伺服调试软件-InoDriverShop-用户手册.pdf VIP
- 个体工商户采购合同(通用).doc VIP
- 中央安全生产考核巡查明查暗访20项工作内容清单.pptx VIP
- 钢结构设计基础钢檩条设计檩条的布置连接与构造檀秋芬04课件讲解.pptx VIP
- 智能体与大模型的关系.docx VIP
原创力文档


文档评论(0)