AI时代的数据处理技术-23页.pptx

  1. 1、本文档共19页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

(inzettabytes)

大数据:数据量,数据生成的速度和多模态

•Volumeofdata/informationcreated,captured,copied,andconsumedworldwidefrom2010to2025©Statista2021/statistics/871513/worldwide-data-created/

物联网、边缘设备和用户行为产生大量数据

•数据量(Volume)和数据生成速度(Velocity)

•图片,文档,图,时序,交易

数据处理的深度也在增加

/hackernoon/the-ai-hierarchy-of-needs-18f111fcc007

Vectordatabase

模型

发布时间

参数量

预训练数据量

GPT-1

2018年6⽉

1.17亿

约5GB

GPT-2

2019年2⽉

15亿

40GB

GPT-3

2020年5⽉

1750亿

45TB

GPT-3.5(ChatGPT)

2022年11⽉

千亿级

百TB级?

GPT-4

2023年3⽉

万亿级(估)

未披露

大模型崛起引领大数据新需求

•大模型需要大数据

•如何获得更多数据?如何提升数据质量?如何高效处理海量数据?

吴恩达的“二八定律”:

深度学习应当从Model-centric向Data-centric转变

搜索增强的内容生成:RAG

80%Data

Answer

一Question?--

20%Model

Nearestneighbors

吴恩达(AndrewNg.)

=BetterAI

Prompt

User

+

在线离线一体化

向量数据库与关系数据库一体化

数据处理与AI计算一体化

大模型崛起引领大数据新趋势

在线模型(策略)表现与离线不一致

•数据不一致

•模型效果不一致

ETL

DataLake

(MPPDB,HDFS)

离线链路

(PyTorch,TF)

Analysts

实时链路

RealTimeETL(Flink,SPARK)

OnlineModel

Update

(PyTorch,TF)

(Flink,Spark+HUDI)

趋势一:在线离线一体化

OLTP

(Hbase,KV,ES)

ModelServing(PyTorch,TF)

Queue

(Kafka)

Database(MySQL)

Apps

问题

OLAP

(Presto,CK)

BatchTraining/Test

双计算引擎

用于事务和分析工作负载的一份数据副本

兼容MySQL和Oracle

与多租户高度兼容,实现资源隔离

2-in-1Architecture:TPAP一体化

•ZhifengYang,QuanqingXu,ShanyanGao,ChuanhuiYang,GuopingWang,YuzhongZhao,FanyuKong,HaoLiu,WanhongWang,JinliangXiao.OceanBasePaetica:AHybridShared-nothing/Shared-everythingDatabaseforSupportingSingleMachineandDistributedCluster.PVLDB,16(12):3728-3740,2023.

单机分布式一体化架构

HTAP引擎(TP+AP)

原生多租户架构

架构创新

分布式事务

分布式调度

并行执行

存储过程

MySQL兼容性

Oracle兼容性

SQL优化器

分布式存储

可以独立部署,也可以分布式部署

HTAP+DBaaS:成本优化和简化维护

OLAPsystem

OLAPworkload

成本优化,维护方便

混合负载

复杂查询优化

•自动计划不断

演变

线性化实时OLAP处理能力

•水平可扩展性(数百亿条数

据记录)和低延迟(秒)

TPAP同一套引擎

•同时处理TP和AP查询

集群级别的并发控制

•优化资源分配和流量控制的灵活策略,

TPAP同一套引擎

Traditionalprocessing

HTAPprocessing

Step1OLTPrequests

Step2OLAPrequests

OLTP+OLAPrequ

文档评论(0)

随风飘落 + 关注
实名认证
内容提供者

人力资源管理师持证人

一个写作爱好者,与大家分享

领域认证该用户于2023年07月07日上传了人力资源管理师

1亿VIP精品文档

相关文档