- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
MindSpore数据框架主要技术架构及关键特性
华为2012实验室
陈雷
AI开发者面临着各种各样的数据问题和挑战
?
Garbage In
?
Gold Out
数周~数月
70%
1.训练数据准备开销,在整个训练
过程占比超过70%
2.训练数据多样性不足,精度提升慢;
3.训练数据量大,迭代时间长;
4.模型训练过程黑盒,模型结果可解释
性差,模型调优效率低
2
MindSpore数据框架,直面AI数据问题与挑战,构建端到端AI数据处理与可视化能力
MindSpore 端边云独立的和协同的统一训练和推理框架
提供端到端AI数据处理,有效降低数据准备成本,缩短模型训练周期
数据框架
计算框架
人机协同的半自动标注框架:快速搭建数据标注系统,加速训练
数据准备
AI数据可视
Mind
Expression
模型精度调优
模型性能调优
统一高效的自研数据格式:自描述可检索的AI数据格式,让训练
数据处理更高效
自定义可视化插件框架
数据精炼:训练时间缩短10%,精度不下降
AI数据处理
Graph
Engine
半自动化标注 数据精炼
训练数据高效处理
训练过程可视、软硬件全栈信息可视能力,显著提升模型调优效率和
开发者体验。
高效AI数据格式
模型精度调优:错例可视化解释、模型溯源与比对
模型性能调优:数据集可视、鞍点可视、学习率曲线
端-边-云协同分布式可信架构
3
1.训练数据准备成本高的主要原因:数据标注成本高
自动驾驶场景2D车辆/行人检测模型为例
百万级训练数据
人工标注需要数百人天
4
人机协同的半自动标注,显著提高标注效率,加速训练数据准备
人工标注
99%
半自动标注
数据半自动标注,典型场景下实现标注准确率99+%,标注效率提升4倍
5
2.解决训练数据读取性能和多样性不足问题,需要高效数据处理能力
模型调优时,现有开源框架不支持组合检索,获取特定训练数据困难。
(如:自动驾驶场景,需要补充 雪天有交通灯的图片)
6
自描述、可检索的AI数据格式,让训练数据处理更高效
训练数据集的问题与挑战
关键特性
1. 无统计,数据集理解难
2. 无索引,数据查询分析慢
提供数据统计
支持数据集可视化,数据分布和统计直观可见,分析快
3. 海量小文件,读取性能差
01
02
解决方案:AI数据格式
提供索引信息
支持高效检索,快速获取和分析指定类型或组合条件数据
Statistics
Index
自描述
可检索
原始数据+标注信息
数据聚合
提供数据聚合
03
支持高效训练数据读取
• 以ImageNet数据集为例,基于AI数据格式,训练数据
访问性能显著提升
Schema
元数据定义
7
3.训练数据量大,包含大量低价值数据,严重影响训练效率
迭代训练
迭代训练
网络模型1
模型训练
训练数据D
网络模型2
训练数据D
XXX
模型
模型训练
模型择优
….
迭代训练
网络模型n
训练数据D
模型训练
同一训练数据多种网络模型构建不同模型,好中选优
训练数据量越来越大,训练时间越来越长,有时需尝试多种网络模型,导致训练时间成倍增长。
如何剔除对训练精度影响很小的低价值数据,加速模型训练成为挑战。
8
数据精炼,精准识别并剔除低价值数据,让训练更快速
模型训练
静态数据精炼
训练数据集
动态数据精炼
精简后训练数据集
高影响
数据
低影响
数据
中等影响
数据
模型精度不下降,训练时间减少超过10%(ResNet/Bert)
9
4.为什么需要数据集可视?“亡羊补牢”成本高,严重影响训练性能
以前:事后补救,“亡羊补牢”
目标:提前优化,“未雨绸缪”
模型结果差
数据集可视
训练时间
↓30+%
手工编写脚本分析
训练数据集问题
训练数据集问题
调整数据分布或
补充某些类型数据
调整数据分布或
补充某些类型数据
模型结果满足要求
模型结果满足要求
10
数据集可视例子:训练集不同数据类型分布可视
11
模型结果可解释性差,无法得到图片和文本分类错误的原因,模型调优难耗时长
?
预测类别:
实际类型:
橙子
图片分类结果错误,但是不知
道为什么错? 无法得知分类
依据的特征
面包圈
地产交易活跃家装市场淡季不淡【本报讯】(记者徐强)进入暑期,由于高温
和湿度的影响,装修界通常会将这一时期视为“休眠期”,由此出现家装市场
所谓的“淡季”。但记者在近日采访中发现,深圳家装市场近段时间并没出现
预期中的淡季,相反旧房翻新改造、新房装修布置等各种各样的装修工程反而
多了起来。很多家装公司接单的数量也较前几个月增长两成左右。专家分析,
这与近期深圳房地产交易活跃,以及新学期将至,很多家长为方便孩子读书换
房有关。两股力量带旺暑期装修。记者在百安居泰然店采访时了解到,进入6月
份以来,家具和地板等装修材料
预测类别:房地产
实际类
您可能关注的文档
最近下载
- 中国成年人人体尺寸.docx VIP
- 学业自我效能感量表.pdf VIP
- 2025年强化学习工程师考试题库(附答案和详细解析)(0731).docx VIP
- 中国胃癌保功能手术外科专家共识(2025版)解读PPT课件.pptx VIP
- 2023年莱芜职业技术学院单招英语考试试题及答案解析.docx VIP
- 小学生寒假安全家长会.pptx VIP
- 2023年浙江树人学院计算机科学与技术专业《计算机系统结构》科目期末试卷A(有答案).docx VIP
- 论文正文格式版排范例(必读).doc VIP
- 机电传动控制课后习题答案-华中科技大学出版社(严选材料).pdf VIP
- 安徽大学财政学试卷B.doc VIP
原创力文档


文档评论(0)