陈文光:AI时代的数据处理技术-23正式版WN8.doc

陈文光:AI时代的数据处理技术-23正式版WN8.doc

  1. 1、本文档共23页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

AI时代的数据处理技术

陈文光清华大学/蚂蚁技术研究院

大数据:数据量,数据生成的速度和多模态

(inzettabytes)

物联网、边缘设备和用户行为产生大量数据

?数据量(Volume)和数据生成速度(Velocity)

多模态数据(Variety)

?图片,文档,图,时序,交易

?Volumeofdata/informationcreated,captured,copied,andconsumedworldwidefrom2010to2025?Statista2021

/statistics/871513/worldwide-data-created/

数据处理的深度也在增加

/hackernoon/the-ai-hierarchy-of-needs-18f111fcc007

大模型崛起引领大数据新需求

高质量训练数据是进一步提升基础模型性能的关键向量数据库是提升模型服务能力的核心技术

80%Data+20%Model=BetterAI

搜索增强的内容生成:RAG

吴恩达的“二八定律”:

Vectordatabase

吴恩达(AndrewNg.)

深度学习应当从Model-centric向Data-centric转变

User

Nearestneighbors

模型发布时间参数量预训练数据量

Question?

GPT-12018年6?1.17亿约5GB

GPT-22019年2?15亿40GB

GPT-32020年5?1750亿45TB

GPT-3.5(ChatGPT)2022年11?千亿级百TB级?

GPT-42023年3?万亿级(估)未披露

Answer

Prompt?大模型需要大数据

?如何获得更多数据?如何提升数据质量?如何高效处理海量数据?

大模型崛起引领大数据新趋势

在线离线

一体化

向量数据库与关系数据库

一体化

数据处理与AI计算

一体化

一体化

问题

在线模型(策略)表现

与离线不一致

Apps

Database

(MySQL)

Queue

(Kafka)

RealTimeETL

(Flink,SPARK)

OnlineModel

Update

(PyTorch,TF)

ModelServing

(PyTorch,TF)

OLTP

(Hbase,KV,ES)

实时链路

?数据不一致

?模型效果不一致

Analysts

BatchTraining/Test

(PyTorch,TF)

ETL

(Flink,Spark

+HUDI)

DataLake

(MPPDB,HDFS)

OLAP

(Presto,CK)

离线链路

2-in-1Architecture:TPAP一体化

单机分布式一体化架构

HTAP引擎(TP+AP)原生多租户架构

分布式存储分布式事务分布式调度

SQL优化器并行执行存储过程Oracle兼容性MySQL兼容性

架构创新双计算引擎兼容MySQL和Oracle

可以独立部署,也可以分布式部署

用于事务和分析工作负载的一份数据副本与多租户高度兼容,实现资源隔离

?ZhifengYang,QuanqingXu,ShanyanGao,ChuanhuiYang,GuopingWang,YuzhongZhao,FanyuKong,HaoLiu,WanhongWang,JinliangXiao.OceanBasePaetica:AHybridShared-nothing/Shared-everything

DatabaseforSupportingSingleMachineandDistributedCluster.PVLDB,16(12):3728-3740,2023.

OceanBase:分布式HTAP数据库实时数据分析和决策对于企业来说非常重要:OceanBase采用分布式架构,具有优异的TP性能,同时支持分析和批处理(AP)

TPAP同一套引擎混合负载HTAP+DBaaS:成本优化和简化维护

TraditionalprocessingHTAPprocessing

Step1OLTP

requests

OLTP+OLAPrequests

复杂查询优化

?自动计划不断

演变

TPAP同一套引擎

?同时处理TP和AP查询

OLTPsystemOLAPsystem

Step2OLAP

requests

OceanBase

cluster

线性化实时

您可能关注的文档

文档评论(0)

中国邮电传媒 + 关注
实名认证
内容提供者

不能下载请联系!本账号发布文档部分原创,部分来源于互联网和个人收集,仅用于技术分享交流,版权为原作者所有,侵删。

版权声明书
用户编号:8071012126000004

1亿VIP精品文档

相关文档