- 1、本文档共23页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
AI时代的数据处理技术
陈文光清华大学/蚂蚁技术研究院
大数据:数据量,数据生成的速度和多模态
(inzettabytes)
物联网、边缘设备和用户行为产生大量数据
?数据量(Volume)和数据生成速度(Velocity)
多模态数据(Variety)
?图片,文档,图,时序,交易
?Volumeofdata/informationcreated,captured,copied,andconsumedworldwidefrom2010to2025?Statista2021
/statistics/871513/worldwide-data-created/
数据处理的深度也在增加
/hackernoon/the-ai-hierarchy-of-needs-18f111fcc007
大模型崛起引领大数据新需求
高质量训练数据是进一步提升基础模型性能的关键向量数据库是提升模型服务能力的核心技术
80%Data+20%Model=BetterAI
搜索增强的内容生成:RAG
吴恩达的“二八定律”:
Vectordatabase
吴恩达(AndrewNg.)
深度学习应当从Model-centric向Data-centric转变
User
Nearestneighbors
模型发布时间参数量预训练数据量
Question?
GPT-12018年6?1.17亿约5GB
GPT-22019年2?15亿40GB
GPT-32020年5?1750亿45TB
GPT-3.5(ChatGPT)2022年11?千亿级百TB级?
GPT-42023年3?万亿级(估)未披露
Answer
Prompt?大模型需要大数据
?如何获得更多数据?如何提升数据质量?如何高效处理海量数据?
大模型崛起引领大数据新趋势
在线离线
一体化
向量数据库与关系数据库
一体化
数据处理与AI计算
一体化
一体化
问题
在线模型(策略)表现
与离线不一致
Apps
Database
(MySQL)
Queue
(Kafka)
RealTimeETL
(Flink,SPARK)
OnlineModel
Update
(PyTorch,TF)
ModelServing
(PyTorch,TF)
OLTP
(Hbase,KV,ES)
实时链路
?数据不一致
?模型效果不一致
Analysts
BatchTraining/Test
(PyTorch,TF)
ETL
(Flink,Spark
+HUDI)
DataLake
(MPPDB,HDFS)
OLAP
(Presto,CK)
离线链路
2-in-1Architecture:TPAP一体化
单机分布式一体化架构
HTAP引擎(TP+AP)原生多租户架构
分布式存储分布式事务分布式调度
SQL优化器并行执行存储过程Oracle兼容性MySQL兼容性
架构创新双计算引擎兼容MySQL和Oracle
可以独立部署,也可以分布式部署
用于事务和分析工作负载的一份数据副本与多租户高度兼容,实现资源隔离
?ZhifengYang,QuanqingXu,ShanyanGao,ChuanhuiYang,GuopingWang,YuzhongZhao,FanyuKong,HaoLiu,WanhongWang,JinliangXiao.OceanBasePaetica:AHybridShared-nothing/Shared-everything
DatabaseforSupportingSingleMachineandDistributedCluster.PVLDB,16(12):3728-3740,2023.
OceanBase:分布式HTAP数据库实时数据分析和决策对于企业来说非常重要:OceanBase采用分布式架构,具有优异的TP性能,同时支持分析和批处理(AP)
TPAP同一套引擎混合负载HTAP+DBaaS:成本优化和简化维护
TraditionalprocessingHTAPprocessing
Step1OLTP
requests
OLTP+OLAPrequests
复杂查询优化
?自动计划不断
演变
TPAP同一套引擎
?同时处理TP和AP查询
OLTPsystemOLAPsystem
Step2OLAP
requests
OceanBase
cluster
线性化实时
您可能关注的文档
- 笨猪网:2024-2025法国高等商学院留学白皮书-724正式版WN8.doc
- 毕马威:2024第二季度行业市场倍数分析报告-30正式版WN8.doc
- 博睿数据-2024企业IT数字化运维管理白皮书-2024.08-15正式版WN8.doc
- 采购部工作流程图及说明.doc
- 餐饮行业月度观察报告(2024年7月)-22正式版WN8.doc
- 蝉妈妈:2024年美妆爆品制造器品牌拆解报告-24正式版WN8.doc
- 蝉妈妈蝉魔方-2024年H1抖音茶叶行业分析报告-2024-WN8.doc
- 产业园区可持续发展实践白皮书-盛裕集团-2024-88正式版WN8.doc
- 超越边界-新形势下中国品牌全球化营销白皮书-2024.07-47正式版WN8.doc
- 持续生物燃料的碳核算(英)-55正式版WN8.doc
- 2025届福建省长汀一中等六校高三第二次月考试卷含解析.doc
- 2025届广东省东莞市六校高三第二学期期终教学质量监控测试语文试题含解析.doc
- 2025届广东省佛山市南海区石门中学高考模拟最后十套:语文试题(五)考前提分仿真卷含解析.doc
- 2025届福建闽侯第四中学高三下学期学习能力诊断(一模)语文试题含解析.doc
- 2025届北京三中高三下学期4月月考试题含解析.doc
- 2025届广东第二师范学院番禺附中高三下学期升级统测语文试题含解析.doc
- 2025届广东省北京师范大学东莞石竹附属学校高三(下)第2次月考语文试题含解析.doc
- 2025届安徽省铜陵市枞阳县枞阳县浮山中学高三语文试题二模冲刺试题(九)含解析.doc
- 2025届甘肃肃兰州市第五十一中学高三下学期高考仿真模拟语文试题试卷含解析.doc
- 2025届甘肃省临洮县二中高三下期第二次模拟考试语文试题理试题含解析.doc
文档评论(0)