- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
技术简介
人工智能(AI)
英特尔?高级矩阵扩展(英特尔?AMX)
借助英特尔?高级矩阵扩展(英特尔?AMX)加速人工智能(AI)工作负载
英特尔推出的第四代英特尔?至强?可扩展处理器及其内置的英特尔?高级矩阵扩展
(Intel?AdvancedMatrixExtensions,英特尔?AMX)可进一步提高AI功能,实现较上一代产品3至10倍的推理和训练性能提升1。
优化AI流水线
从图书和电影推荐系统到驱动大型电商网站的数字化零售软件,再到支持聊天机器人和机器翻译的自然语言处理(NLP)功能,企业可通过在不同场景中应用人工智能(AI)获得诸多收益。AI真正的价值在于其解析复杂环境和海量数据的特性,以及解决以往难解之题的能力,而这正是不断推进企业革新的关键潜能。据研究显示,到2025年,90%新发布的企业应用版本都将包含嵌入式AI功能2。
AI流水线
数据
数据
模型
部署
数据探索和预处理
CPU
数据传入
CPU
3个外方框表示AI流水线各阶段。
5个内方框表示AI工作负载。
方框大小表明AI流水线中处理器活动的相对水平。
图1.AI流水线中的AI工作负载和处理器活动
第四代英特尔?至强?可扩展处理器内置AI加速器——英特尔?AMX,是企业和机构优化AI流水线的理想选择。平衡推理是CPU在AI应用中的主要用例,英特尔?AMX专为该用例设计并且具备更多训练能力(见图1)3。目前,在所有运行AI推理工作负载的已装机数据中心处理单元中,英特尔?至强?可扩展处理器的占比高达70%;因此,为新的AI部署选择内置英特尔?AMX的第四代英特尔?至强?可扩展处理器,是一种既高效又具有成本效益的AI工作负载加速方式4。
解决方案简介
解决方案简介|借助英特尔?高级矩阵扩展(英特尔?AMX)加速人工智能(AI)工作负载
PAGE
PAGE2
选择内置加速器的理由
目前,采用内置英特尔?深度学习加速技术(Intel?DeepLearningBoost,英特尔?DLBoost)的第三代英特尔?至强?可扩展处理器支持AI部署,可满足IT部门履行客户服务级别协议(SLA)的要求,而内置英特尔?AMX的第四代英特尔?至强?可扩展处理器则将带来新的变革。
图2所示为英特尔?AMX在代际间实现高达5.7至10倍的PyTorch实时推理性能提升的情况;图3所示为英特尔?AMX在代际间实现高达3.5至10倍的PyTorch训练性能提升的情况5。凭借更强性能,英特尔?AMX将进一步提升客户满意度。英特尔?AMX加速器内置于企业和机构业已熟悉的CPU解决方案之中,可显著提升多方面性能,让您在选择适合AI应用的CPU时更轻松。
第四代英特尔?至强?可扩展处理器内置英特尔?AMX,实现高达5.7至10倍的代际实时推理性能提升(越高越好)
12
8.615.706.196.25
8.61
5.70
6.19
6.25
6.24
新配置:第四代英特尔?至强?铂金8480+处理器
(英特尔?AMXBF16)
基准配置:第三代英特尔?至强?铂金8380处理器(FP32)
ResNeXt10132x16d ResNet-50v1.5
BERT-Large
MaskR-CNN
RNN-T
SSD-ResNets-34
图像分类
NLP
图像分割
语音识别
对象检测
8
6
4
2
0
PyTorch
图2.第四代英特尔?至强?可扩展处理器内置英特尔?AMX,加速PyTorch实时推理5
第四代英特尔?至强?可扩展处理器内置英特尔?AMX,实现高达3.5至10倍的代际训练性能提升(越高越好)
12
10.3
PyTorch新配置:第四代英特尔
PyTorch
新配置:第四代英特尔?至强?铂金8480+处理器
(英特尔?AMXBF16)
5.4
3.5
4
4
4.5
基准配置:第三代英特尔?至强?铂金8380处理器(FP32)
ResNet-50v1.5
BERT-Large
DLRM
推荐系统
MaskR-CNN
SSD-ResNets-34
RNN-T
图像分类 NLP 图像分割 对象检测 语音识别
8
6
4
2
0
图3.第四代英特尔?至强?可扩展处理器内置英特尔?AMX,加速PyTorch训练5
通过图4可以看出英特尔?AMX带来的性能提升远大于每一代产品(从第一代英特尔?至强?可扩展处理器开始)通过增加内核所实现的性能提升
文档评论(0)