- 1、本文档共48页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
Data+AI一体架构的产品创新
汤祯捷-阿里云-高级产品专家
DataFunCon#2024
Contents目录
MaxCompute
Data+AI一体趋势AIforDW探索
MaxCompute大模型应用最佳实践MaxComputeDataforAI能力
MaxCompute
大模型应用最佳实践
01Data+AI一体趋势
Data+AI市场主要趋势
DataForAI
AIForDataWarehouse
关注点
依靠大数据平台大量、丰富的数据,提供用户更多、更简单的数据探索、业务场景以及快速模型构建的可能性,真正做到数据普惠
通过AI对数据仓库进行AI调优:
?资源分配优化
?执行计划优化
?自动索引推荐
?LLM+向量数据库
智能数据治理、智能成本优化、NL2SQL等
核心产品能力
MaxCompute:
交互式开发平台Notebook分布式计算框架MaxFrame
开发镜像管理/自定义镜像管理与应用
MaxCompute+PAI一体化数据处理模型训练推理
MaxCompute:
分层存储推荐、自动物化视图、智能成本优化等
智能数仓:索引推荐、资源分配优化HBO、执行计划优化HBS、查询计划自动选择Lero等
DataWorks:Copilot
Data+AI开发全生命周期
Data+AI开发是一个复杂的流程,涉及到数据分析、数据预处理、模型创建、模型训练、模型评估、模型预测、部署发布等多个流程,也涉及到
业务人员、数据工程师、数据分析师以及数据科学家等不同角色:
模型部署
对模型进行部署发布,从而实现模型流程化使用
模型评估
将模型预测结果与实际结果进行对比,从而得到模型的准确率
Data+AI
数据分析对数据进行初步分析,了解数
数据分析
对数据进行初步分析,了解数据分布及字段指标情况
为达成高识别率的目标,使用
大数据,找出最优配置参数的
过程
数据预处理对数据进行清洗加工,数据清
数据预处理
对数据进行清洗加工,数据清
洗、数据转换、特征选择、特
征提取等
选择多种数据挖掘技术(SQL、
Python等)和工具进行模型创建,用
到分类、回归等相关模型
Data+AI开发痛点
?数据类型多,数据管理能力差,通常一个复杂的模型会涉及到结构化及非结构化数据,散落在不同的存储介质中,形成数据孤岛,开发人员需要到不同的存储介质中查找数据。
?数据开发与模型开发脱节,企业传统架构一般是数据工程师、数据分析师通过大数据平台进行数据处理、加工,然后由数据科学家在AI平台中进行模型建模、训练,整个流程割裂,一方面产生了大量数据迁移的成本,另一方面也会导致整个开发过程中,对各个角色的沟通成本很高,影响整个开发流程进度甚至最终的模型准确率;
?性能扩展能力差,训练效率低,目前很多开源计算框架大多是本地Local模式且未经过性能优化,在实际的生产领域尤其在大规模数据的情况下难以满足企业对模型训练性能的要求;
?工程化实现,缺少统一运维管理,很多企业采用自建、开源架构,通过工程化方式进行数据开发、建模,导致人员花费大量的时间在搭建环境以及日常运维,同时还可能不满足企业安全要求,造成安全风险;在开发体验上,开发过程脆弱,不具备鲁棒性;
性能、开发效率、训练效率学习成本、沟通成本、运维成本效率运维成本
性能、开发效率、训练效率
学习成本、沟通成本、运维成本
效率
运维
成本
安全性、鲁棒性、易用性、管理
安全性、鲁棒性、易用性、管理
02MaxComputeDataforAI能力
MaxComputeData+AI分层架构
开发
交互式开发
交互式开发
MaxComputeNotebook
分布式计算框架MaxFrame
统一Python编程接口内建LLM数据处理算子
分布式计算能力
…
…
数据
半结构JSON
分布式存储盘古
模型开发
模型训练
计算
第三方包管理
模型镜像管理
可视化建模
PAIDesigner
离线开发调度DataWorks
对象存储OSS
元数据管理
自定义镜像
模型管理
数据处理
MaxComputeData+AI核心功能
分布式计算框架
分布式计算框架
MaxComputeMaxFrame
统一Python编程接口,高效分布式计算能力,内建数据处理算子
交互式开发环境MaxComputeNotebook开箱即用的开发环境
交互式开发环境
MaxComputeNotebook
开箱即用的开
文档评论(0)