陈文光:AI时代的数据处理技术-23正式版WN8.ppt

陈文光:AI时代的数据处理技术-23正式版WN8.ppt

  1. 1、本文档共23页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

AI时代的数据处理技术陈文光清华大学/蚂蚁技术研究院

大数据:数据量,数据生成的速度和多模态(inzettabytes)物联网、边缘设备和用户行为产生大量数据?数据量(Volume)和数据生成速度(Velocity)多模态数据(Variety)?图片,文档,图,时序,交易?Volumeofdata/informationcreated,captured,copied,andconsumedworldwidefrom2010to2025?Statista2021/statistics/871513/worldwide-data-created/

数据处理的深度也在增加/hackernoon/the-ai-hierarchy-of-needs-18f111fcc007

大模型崛起引领大数据新需求高质量训练数据是进一步提升基础模型性能的关键向量数据库是提升模型服务能力的核心技术+=BetterAI80%Data20%Model搜索增强的内容生成:RAG吴恩达的“二八定律”:深度学习应当从Model-centric向Data-centric转变VectordatabaseNearestneighbors吴恩达(AndrewNg.)User模型GPT-1发布时间2018年6?2019年2?2020年5?2022年11?2023年3?参数量1.17亿预训练数据量约5GBQuestion?AnswerGPT-215亿40GBGPT-31750亿45TBGPT-3.5(ChatGPT)GPT-4千亿级百TB级?未披露万亿级(估)Prompt?大模型需要大数据?如何获得更多数据?如何提升数据质量?如何高效处理海量数据?

大模型崛起引领大数据新趋势在线离线一体化向量数据库与关系数据库一体化数据处理与AI计算一体化

一体化ModelServing(PyTorch,TF)问题Apps实时链路离线链路OnlineModelUpdate(PyTorch,TF)在线模型(策略)表现与离线不一致Database(MySQL)Queue(Kafka)RealTimeETL(Flink,SPARK)OLTP(Hbase,KV,ES)ETL(Flink,Spark+HUDI)DataLake数据不一致(MPPDB,HDFS)?BatchTraining/Test(PyTorch,TF)?模型效果不一致OLAP(Presto,CK)Analysts

2-in-1Architecture:TPAP一体化单机分布式一体化架构HTAP引擎(TP+AP)原生多租户架构分布式存储分布式事务分布式调度SQL优化器并行执行存储过程Oracle兼容性MySQL兼容性架构创新双计算引擎兼容MySQL和Oracle可以独立部署,也可以分布式部署用于事务和分析工作负载的一份数据副本与多租户高度兼容,实现资源隔离?ZhifengYang,QuanqingXu,ShanyanGao,ChuanhuiYang,GuopingWang,YuzhongZhao,FanyuKong,HaoLiu,WanhongWang,JinliangXiao.OceanBasePaetica:AHybridShared-nothing/Shared-everythingDatabaseforSupportingSingleMachineandDistributedCluster.PVLDB,16(12):3728-3740,2023.

OceanBase:分布式HTAP数据库实时数据分析和决策对于企业来说非常重要:OceanBase采用分布式架构,具有优异的TP性能,同时支持分析和批处理(AP)TPAP同一套引擎混合负载HTAP+DBaaS:成本优化和简化维护HTAPprocessingOLTPsystemOLAPsystemTraditionalprocessing复杂查询优化同一套引擎TPAP?自动计划不断演变?同时处理TP和AP查询Step1OLTPrequestsOLTP+OLAPrequestsOLTPworkloadOLAPworkload集群级别的并发控制线性化实时OLAP处理能力Step2OLAPrequestsOceanBasecluster?水平可扩展性(数百亿条数据记录)和低延迟(秒)?优化资源分配和流量控制的灵活策略,HTAP引擎成本优化,维护方便

图风控方案中的在线离线一体化:问题TuGraphDBMessageQueueApp

文档评论(0)

myhouse9202 + 关注
实名认证
内容提供者

本账号发布文档部分原创,部分来源于互联网和个人收集,仅用于技术分享交流,版权为原作者所有,如果侵犯了您的知识版权,请提出指正,将立即删除相关资料。

版权声明书
用户编号:8072111115000005

1亿VIP精品文档

相关文档