- 1、本文档共22页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
加速云端机器学习-
Alluxio在小红书的实践
“大模型”与“大数据”两者犹如车之双轮,合力驱动数据价值和企业价值的增长。大数据和大模型,作为双核驱动力,正在引领我们迈向更加智能、高效和便捷的时代。
李亚斌小红书大数据技术专家
DataFunCon#2024
Contents
目录
面临的挑战小红书实践案例
“大模型”与“大数据”两者犹如车之双轮,合力驱动数据价值和企业价值的增长。大数据和大模型,作为双核驱动力,正在引领我们迈向更加智能、高效和便捷的时代。
多云数据加速层未来规划
“大模型”与“大数据”两者犹如车之双轮,合力驱动数据价值和企业价值的增长。大数据和大模型,作为双核驱动力,正在引领我们迈向更加智能、高效和便捷的时代。
01面临的挑战
小红书多云业务架构
特点
•多云架构,成本优势明显,
“大模型”与“大数据”两者犹如车之双轮,合力驱动数据价值和企业价值的增长。大数据和大模型,作为双核驱动力,正在引领我们迈向更加智能、高效和便捷的时代。
但业务通信链路复杂
•不同region之间rt差异大
•专线容量稀缺
痛点
•机器学习训练慢,CPU/GPU利用率低
•推荐召回索引分发慢,业务稳定性差,成本高昂
“大模型”与“大数据”两者犹如车之双轮,合力驱动数据价值和企业价值的增长。大数据和大模型,作为双核驱动力,正在引领我们迈向更加智能、高效和便捷的时代。
•60亿+小文件,如何能够低成本训练
•AI模型从百GB变大到TB级,磁盘存储成本高,加载慢
•专线传输压力大
02多云数据加速层
“大模型”与“大数据”两者犹如车之双轮,合力驱动数据价值和企业价值的增长。大数据和大模型,作为双核驱动力,正在引领我们迈向更加智能、高效和便捷的时代。
构建多云统一数据加速层
选型目标
•能够复用业务已有数据,无需进行
数据搬迁
“大模型”与“大数据”两者犹如车之双轮,合力驱动数据价值和企业价值的增长。大数据和大模型,作为双核驱动力,正在引领我们迈向更加智能、高效和便捷的时代。
•支持S3\POSIX协议,便于各业务无
缝对接
•能够实现数据的跨云传输带宽控制
和节省
•能够支撑百亿级文件的AI训练
•支持常见的云存储产品
Alluxio架构
“大模型”与“大数据”两者犹如车之双轮,合力驱动数据价值和企业价值的增长。大数据和大模型,作为双核驱动力,正在引领我们迈向更加智能、高效和便捷的时代。
Alluxio主要特性
主要特性
•格式透明:不侵入业务数
据存储格式
“大模型”与“大数据”两者犹如车之双轮,合力驱动数据价值和企业价值的增长。大数据和大模型,作为双核驱动力,正在引领我们迈向更加智能、高效和便捷的时代。
•协议兼容:支持
S3\POSIX\HDFS等协议
•多云统一视图:数据仅需
通过专线传输一次,后续
可通过缓存就近读取
多协议兼容
“大模型”与“大数据”两者犹如车之双轮,合力驱动数据价值和企业价值的增长。大数据和大模型,作为双核驱动力,正在引领我们迈向更加智能、高效和便捷的时代。
“大模型”与“大数据”两者犹如车之双轮,合力驱动数据价值和企业价值的增长。大数据和大模型,作为双核驱动力,正在引领我们迈向更加智能、高效和便捷的时代。
03小红书实践案例
机器学习训练原架构
问题
•训练慢,集群CPU利用率低
原因“大模型”与“大数据”两者犹如车之双轮,合力驱动数据价值和企业价值的增长。大数据和大模型,作为双核驱动力,正在引领我们迈向更加智能、高效和便捷的时代。
•热点数据集,扇出大
•Tbps级流量,触达对象存储桶
带宽瓶颈
•直连对象存储,单线程性能低
您可能关注的文档
- LLM时代下的指标平台建设实践-2024大数据大模型峰会.pdf
- 阿里云AI搜索RAG应用实践-2024大数据大模型峰会.pdf
- 从大数据到大模型:搜索推荐技术的前沿探索-2024大数据大模型峰会.pdf
- 打造LLMOps时代Prompt数据驱动引擎-2024大数据大模型峰会.pdf
- 大模型在智能电销的应用-2024大数据大模型峰会.pdf
- 大模型增强用户体验与用户服务论-2024大数据大模型峰会.pdf
- 多模态手机智能体Mobile-Agent-2024大数据大模型峰会.pdf
- 基于 Apache Paimon 的实时湖仓架构探索-2024大数据大模型峰会.pdf
- 基于ByteHouse OLAP架构如何实现⾼性能向量检索-2024大数据大模型峰会.pdf
- 基于Doris湖仓一体分析系统在快手的实践-2024大数据大模型峰会.pdf
文档评论(0)