MindSpore数据框架主要技术架构及关键特性(华为陈雷) (1).pptxVIP

MindSpore数据框架主要技术架构及关键特性(华为陈雷) (1).pptx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
MindSpore数据框架主要技术架构及关键特性 华为2012实验室 陈雷 AI开发者面临着各种各样的数据问题和挑战 ? Garbage In ? Gold Out 数周~数月 70% 1.训练数据准备开销,在整个训练 过程占比超过70% 2.训练数据多样性不足,精度提升慢; 3.训练数据量大,迭代时间长; 4.模型训练过程黑盒,模型结果可解释 性差,模型调优效率低 2 MindSpore数据框架,直面AI数据问题与挑战,构建端到端AI数据处理与可视化能力 MindSpore 端边云独立的和协同的统一训练和推理框架 提供端到端AI数据处理,有效降低数据准备成本,缩短模型训练周期 数据框架 计算框架 人机协同的半自动标注框架:快速搭建数据标注系统,加速训练 数据准备 AI数据可视 Mind Expression 模型精度调优 模型性能调优 统一高效的自研数据格式:自描述可检索的AI数据格式,让训练 数据处理更高效 自定义可视化插件框架 数据精炼:训练时间缩短10%,精度不下降 AI数据处理 Graph Engine 半自动化标注 数据精炼 训练数据高效处理 训练过程可视、软硬件全栈信息可视能力,显著提升模型调优效率和 开发者体验。 高效AI数据格式 模型精度调优:错例可视化解释、模型溯源与比对 模型性能调优:数据集可视、鞍点可视、学习率曲线 端-边-云协同分布式可信架构 3 1.训练数据准备成本高的主要原因:数据标注成本高 自动驾驶场景2D车辆/行人检测模型为例 百万级训练数据 人工标注需要数百人天 4 人机协同的半自动标注,显著提高标注效率,加速训练数据准备 人工标注 99% 半自动标注 数据半自动标注,典型场景下实现标注准确率99+%,标注效率提升4倍 5 2.解决训练数据读取性能和多样性不足问题,需要高效数据处理能力 模型调优时,现有开源框架不支持组合检索,获取特定训练数据困难。 (如:自动驾驶场景,需要补充 雪天有交通灯的图片) 6 自描述、可检索的AI数据格式,让训练数据处理更高效 训练数据集的问题与挑战 关键特性 1. 无统计,数据集理解难 2. 无索引,数据查询分析慢 提供数据统计 支持数据集可视化,数据分布和统计直观可见,分析快 3. 海量小文件,读取性能差 01 02 解决方案:AI数据格式 提供索引信息 支持高效检索,快速获取和分析指定类型或组合条件数据 Statistics Index 自描述 可检索 原始数据+标注信息 数据聚合 提供数据聚合 03 支持高效训练数据读取 • 以ImageNet数据集为例,基于AI数据格式,训练数据 访问性能显著提升 Schema 元数据定义 7 3.训练数据量大,包含大量低价值数据,严重影响训练效率 迭代训练 迭代训练 网络模型1 模型训练 训练数据D 网络模型2 训练数据D XXX 模型 模型训练 模型择优 …. 迭代训练 网络模型n 训练数据D 模型训练 同一训练数据多种网络模型构建不同模型,好中选优 训练数据量越来越大,训练时间越来越长,有时需尝试多种网络模型,导致训练时间成倍增长。 如何剔除对训练精度影响很小的低价值数据,加速模型训练成为挑战。 8 数据精炼,精准识别并剔除低价值数据,让训练更快速 模型训练 静态数据精炼 训练数据集 动态数据精炼 精简后训练数据集 高影响 数据 低影响 数据 中等影响 数据 模型精度不下降,训练时间减少超过10%(ResNet/Bert) 9 4.为什么需要数据集可视?“亡羊补牢”成本高,严重影响训练性能 以前:事后补救,“亡羊补牢” 目标:提前优化,“未雨绸缪” 模型结果差 数据集可视 训练时间 ↓30+% 手工编写脚本分析 训练数据集问题 训练数据集问题 调整数据分布或 补充某些类型数据 调整数据分布或 补充某些类型数据 模型结果满足要求 模型结果满足要求 10 数据集可视例子:训练集不同数据类型分布可视 11 模型结果可解释性差,无法得到图片和文本分类错误的原因,模型调优难耗时长 ? 预测类别: 实际类型: 橙子 图片分类结果错误,但是不知 道为什么错? 无法得知分类 依据的特征 面包圈 地产交易活跃家装市场淡季不淡【本报讯】(记者徐强)进入暑期,由于高温 和湿度的影响,装修界通常会将这一时期视为“休眠期”,由此出现家装市场 所谓的“淡季”。但记者在近日采访中发现,深圳家装市场近段时间并没出现 预期中的淡季,相反旧房翻新改造、新房装修布置等各种各样的装修工程反而 多了起来。很多家装公司接单的数量也较前几个月增长两成左右。专家分析, 这与近期深圳房地产交易活跃,以及新学期将至,很多家长为方便孩子读书换 房有关。两股力量带旺暑期装修。记者在百安居泰然店采访时了解到,进入6月 份以来,家具和地板等装修材料 预测类别:房地产 实际类

文档评论(0)

nihhbg + 关注
实名认证
文档贡献者

信息系统项目管理师持证人

理工科男生

领域认证该用户于2025年11月11日上传了信息系统项目管理师

1亿VIP精品文档

相关文档