CN119292524A 基于大模型的数据存储方法（上海迅绎网络科技有限公司）.docxVIP

下载本文档

0
0
约3.6万字
约 50页
2026-01-24 发布于重庆
举报

CN119292524A 基于大模型的数据存储方法（上海迅绎网络科技有限公司）.docx

(19)国家知识产权局

(12)发明专利申请

(10)申请公布号CN119292524A(43)申请公布日2025.01.10

(21)申请号202411335849.4

(22)申请日2024.09.24

(71)申请人上海迅绎网络科技有限公司

地址201400上海市奉贤区奉城镇东街98

号3幢

(72)发明人向先容邓波邓伟刚

(51)Int.CI.

GO6F3/06(2006.01)

GO6F18/23(2023.01)

GO6F18/2135(2023.01)

GO6F16/22(2019.01)

GO6N3/045(2023.01)

权利要求书4页说明书19页附图3页

(54)发明名称

基于大模型的数据存储方法

(57)摘要

本发明涉及数据存储管理技术领域，尤其涉

及一种基于大模型的数据存储方法。所述方法包括以下步骤：对目标预训练大模型进行输入类簇

分片优化，得到存储模量分片数据；利用存储模

量分片数据构建智能分片存储策略；获取目标模

型训练数据；利用智能分片存储策略对目标模型

训练数据进行智能分片存储，并进行冗余压缩优

化，得到动态冗余存储索引数据；根据动态冗余

存储索引数据进行训练数据存储空间优化，得到

优化数据存储策略。本发明通过对数据进行智能分片存储以及精细化数据冗余压缩，实现了高

119292524ACN效、稳定的模型训练数据访问，解决了大模型训练过程中数据存储和访问效率低下的问题，显著

119292524A

CN119292524A权利要求书1/4页

1.一种基于大模型的数据存储方法，其特征在于，包括以下步骤：

步骤S1:对目标预训练大模型进行模型内部参数提取，分别得到多维模型参数矩阵以及输入类型参数矩阵；根据输入类型参数矩阵进行输入类簇分片优化，生成模量输入分片数据；对模量输入分片数据进行分布式存储节点映射，得到存储模量分片数据；

步骤S2:通过多维模型参数矩阵对存储模量分片数据进行智能分片存储策略处理，从而得到智能分片存储策略；获取目标模型训练数据；基于分布式存储管理系统利用智能分片存储策略对目标模型训练数据进行智能分片存储，得到模型训练存储数据；

步骤S3:对模型训练存储数据进行冗余数据块检测，分别得到训练冗余数据以及训练非冗余数据；对训练冗余数据以及训练非冗余数据进行冗余压缩优化，并进行冗余存储索引构建，从而得到动态冗余存储索引数据；根据动态冗余存储索引数据进行数据存储检索优化，生成优化存储训练数据；

步骤S4:对优化存储训练数据进行训练数据调用顺序推理，生成数据调用顺序数据；对数据调用顺序数据进行关键数据识别，并进行快速存取量处理，生成关键存取训练数据；将关键存取训练数据进行数据预加载处理，生成模型训练预加载缓存数据；

步骤S5:对模型训练预加载缓存数据进行数据流多通道并行传输，得到并行传输数据流；将并行传输数据流传输至目标预训练大模型进行模型训练，并进行数据存取命中率反馈，生成缓存命中率数据；根据缓存命中率数据进行训练数据存储空间优化，从而得到优化数据存储策略。

2.根据权利要求1所述的基于大模型的数据存储方法，其特征在于，步骤S1包括以下步

骤：

步骤S11:对目标预训练大模型进行模型内部参数提取，分别得到多维模型参数矩阵以及输入类型参数矩阵，其中，多维模型参数矩阵包括模型注意力权重矩阵、嵌入向量矩阵以及层间激活参数矩阵；

步骤S12:根据输入类型参数矩阵进行主成分降维处理，生成低维模型输入类型参数；

步骤S13:对低维模型输入类型参数进行参数特征离散化处理，生成离散模型输入特征数据；

步骤S14:根据离散模型输入特征数据进行聚类簇分析，并进行全局元数据索引构建，生成模型输入索引结构数据；根据模型输入索引结构数据进行类簇数据分片均衡优化，生成模量输入分片数据；

步骤S15:利用哈希分片算法对模量输入分片数据进行分布式存储节点映射，从而得到存储模量分片数据。

3.根据权利要求2所述的基于大模型的数据存储方法，其特征在于，步骤S14包括以下步骤：

步骤S141:根据离散模型输入特征数据进行特征点相似度计算，生成输入特征相似度数据；

步骤S142:通过输入特征相似度数据对离散模型输入特征数据进行聚类簇分析，生成模型输入聚类簇数据；

CN119292524A 基于大模型的数据存储方法（上海迅绎网络科技有限公司）.docxVIP