借助英特尔® 高级矩阵扩展（英特尔® AMX）加速人工智能 (AI) 工作负载.docx

下载文档

3
0
约1.98万字
约 11页
2024-04-21 发布于境外
举报
版权申诉
保障服务

借助英特尔® 高级矩阵扩展（英特尔® AMX）加速人工智能 (AI) 工作负载.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

技术简介

人工智能(AI)

英特尔?高级矩阵扩展（英特尔?AMX）

借助英特尔?高级矩阵扩展（英特尔?AMX）加速人工智能(AI)工作负载

英特尔推出的第四代英特尔?至强?可扩展处理器及其内置的英特尔?高级矩阵扩展

（Intel?AdvancedMatrixExtensions，英特尔?AMX）可进一步提高AI功能，实现较上一代产品3至10倍的推理和训练性能提升1。

优化AI流水线

从图书和电影推荐系统到驱动大型电商网站的数字化零售软件，再到支持聊天机器人和机器翻译的自然语言处理(NLP)功能，企业可通过在不同场景中应用人工智能(AI)获得诸多收益。AI真正的价值在于其解析复杂环境和海量数据的特性，以及解决以往难解之题的能力，而这正是不断推进企业革新的关键潜能。据研究显示，到2025年，90%新发布的企业应用版本都将包含嵌入式AI功能2。

AI流水线

数据

模型

部署

数据探索和预处理

CPU

数据传入

CPU

3个外方框表示AI流水线各阶段。

5个内方框表示AI工作负载。

方框大小表明AI流水线中处理器活动的相对水平。

图1.AI流水线中的AI工作负载和处理器活动

第四代英特尔?至强?可扩展处理器内置AI加速器——英特尔?AMX，是企业和机构优化AI流水线的理想选择。平衡推理是CPU在AI应用中的主要用例，英特尔?AMX专为该用例设计并且具备更多训练能力（见图1）3。目前，在所有运行AI推理工作负载的已装机数据中心处理单元中，英特尔?至强?可扩展处理器的占比高达70%；因此，为新的AI部署选择内置英特尔?AMX的第四代英特尔?至强?可扩展处理器，是一种既高效又具有成本效益的AI工作负载加速方式4。

解决方案简介

解决方案简介|借助英特尔?高级矩阵扩展（英特尔?AMX）加速人工智能(AI)工作负载

PAGE

PAGE2

选择内置加速器的理由

目前，采用内置英特尔?深度学习加速技术（Intel?DeepLearningBoost，英特尔?DLBoost）的第三代英特尔?至强?可扩展处理器支持AI部署，可满足IT部门履行客户服务级别协议(SLA)的要求，而内置英特尔?AMX的第四代英特尔?至强?可扩展处理器则将带来新的变革。

图2所示为英特尔?AMX在代际间实现高达5.7至10倍的PyTorch实时推理性能提升的情况；图3所示为英特尔?AMX在代际间实现高达3.5至10倍的PyTorch训练性能提升的情况5。凭借更强性能，英特尔?AMX将进一步提升客户满意度。英特尔?AMX加速器内置于企业和机构业已熟悉的CPU解决方案之中，可显著提升多方面性能，让您在选择适合AI应用的CPU时更轻松。

第四代英特尔?至强?可扩展处理器内置英特尔?AMX，实现高达5.7至10倍的代际实时推理性能提升（越高越好）

8.615.706.196.25

8.61

5.70

6.19

6.25

6.24

新配置：第四代英特尔?至强?铂金8480+处理器

（英特尔?AMXBF16）

基准配置：第三代英特尔?至强?铂金8380处理器(FP32)

ResNeXt10132x16d ResNet-50v1.5

BERT-Large

MaskR-CNN

RNN-T

SSD-ResNets-34

图像分类

NLP

图像分割

语音识别

对象检测

PyTorch

图2.第四代英特尔?至强?可扩展处理器内置英特尔?AMX，加速PyTorch实时推理5

第四代英特尔?至强?可扩展处理器内置英特尔?AMX，实现高达3.5至10倍的代际训练性能提升（越高越好）

10.3

PyTorch新配置：第四代英特尔

PyTorch

新配置：第四代英特尔?至强?铂金8480+处理器

（英特尔?AMXBF16）

5.4

3.5

4.5

基准配置：第三代英特尔?至强?铂金8380处理器(FP32)

ResNet-50v1.5

BERT-Large

DLRM

推荐系统

MaskR-CNN

SSD-ResNets-34

RNN-T

图像分类 NLP 图像分割对象检测语音识别

图3.第四代英特尔?至强?可扩展处理器内置英特尔?AMX，加速PyTorch训练5

通过图4可以看出英特尔?AMX带来的性能提升远大于每一代产品（从第一代英特尔?至强?可扩展处理器开始）通过增加内核所实现的性能提升

您可能关注的文档

文档评论（0）

数据相关的文档 + 关注: 实名认证

服务提供商

数学毕业，从事大数据工作十几年，涉及二三十个行业

咨询作者（1人已咨询）已休息

1亿VIP精品文档

更多 >

借助英特尔® 高级矩阵扩展（英特尔® AMX）加速人工智能 (AI) 工作负载.docx