设计和构建 AI 工作流数据管道.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

技术白皮书

设计和构建AI工作流数据管道

在整个企业中从边缘到核心再到云部署AI、

机器学习和深度学习

NetApp公司的SantoshRao

2018年3月|WP-7264

内容提要

企业渴望利用深度学习(DeepLearning,DL)等人工智能(ArtificialIntelligence,AI)技术推

出新服务,从企业数据中获得深入见解。随着数据科学团队利用过去的概念验证来实施深度

学习,他们必须专注于创建一个完整的数据架构,以消除瓶颈,实现更快的模型迭代。

设计数据架构涉及到全盘考量数据管道,从在核心数据中心内的数据载入和边缘分析到数据

预处理和训练,再到在云中归档。必须要了解性能需求、数据集和所需的数据服务。但是,

深度学习硬件和云计算方法会随着时间不断发展,因此您还应该考虑将来的可扩展性和可支

持性。

本白皮书将讨论AI基础架构面临的各种难题,以及NetApp如何帮助您为当前的深度学习

工作流构建数据管道,同时确保您在AI基础架构方面的投资符合未来需求。精心规划基础

架构可确保数据在深度学习管道中顺畅流动,进而加快部署速度并获得最大竞争优势。

目录

1简介:您的基础架构是否已准备好为生产中的AI工作流提供支持?3

2深度学习管道中的数据流4

3加速深度学习管道中的I/O处理5

3.1消除边缘瓶颈5

3.2消除内部瓶颈6

3.3消除云中瓶颈7

4用于深度学习管道的文件系统和数据架构8

4.1流入训练集群的数据9

4.2其他性能因素10

5NetApp技术与深度学习管道12

6打造面向未来的深度学习管道12

6.1规划核心硬件发展13

结论:掌控您数据管道和AI未来13

表格目录

表1)主要问题和注意事项……………………9

插图目录

图1)为深度学习设计的数据管道也可以满足其他AI和大数据工作流的需要。3

图2)深度学习管道既可以存在于内部,也可以存在于云中。4

图3)通过利用数据分层进行边缘分析,可以将从边缘收集的数据分为

用于核心的高优先级数据和用于归档的低优先级数据。5

图4)管道核心位于内部的深度学习管道。6

图5)通过将数据放置在云附近,您可以在利用云计算的同时加快数据传输速度并增强控制力。7

图6)非结构化数据支持在数据湖中进行合并,然后流式传输到训练集群。9

图7)结构化数据使用小型随机I/O读取并在训练集群中进行合并。9

图8)NetAppDataFabric技术。12

图9)您AI/ML/DL管道的核心将会不断发展。13

2设计和构建AI数据管道©2018NetApp,Inc.。保留所有权利。—技术白皮书

1简介:您的基础架构是否已准备好为生产中的AI工作流提供支持?

各行各业的企业都渴望利用人工智能(AI)技术推出新服务,从企业数据中获得新见解。然而,当数据

科学团队利用过去的概念验证项目开始实施AI技术时,他们常常会在数据管理方面遇到问题。例如,

在多个数据存储库之间移动或复制数据时可能遇到重重困难。同样,在大型动态数据集之间满足性能和

保护的生产质量服务级别也是一大难题。

出现这一难题的部分原因在于,成功利用AI所需的数据流未与数据中心隔离。随着各类企业开始利用

物联网(InternetofThings,IoT)和AI技术,他们在从边缘到核心再到云的各个环节都面临着数据难

题。

例如,许多汽车公司已经开始从越来越多的车辆(边缘)上收集数据。这些数据用来训练自动驾驶(核

心)所需的AI算法。由于数据集呈指数级增长,而且需要存储下来以便重复使用,因此它们必须存储

在可扩展的低成本平台(云环境)中。不夸张地说,如今汽车公司正在逐步将IT技术推向极限。全球

零售商面临着类似的挑战,因为他们要基于来自全球数百个零售点的销售点设备收集的数据建立推理模

型。

有些人会让您相信AI数据挑战仅仅在于如何提供性能。性能是AI管道核心的基石。但是,您需要一个

涵盖从数据载入到数据归档在内整个数据流的数据管道,以便在确保成功运营的同时,在每个阶段提供

最佳性能、效率和成本。

本白皮书将讨论AI基础架构面临的各

文档评论(0)

数据相关的文档 + 关注
实名认证
服务提供商

数学毕业,从事大数据工作十几年,涉及二三十个行业

1亿VIP精品文档

相关文档