- 0
- 0
- 约3.6万字
- 约 50页
- 2026-01-24 发布于重庆
- 举报
(19)国家知识产权局
(12)发明专利申请
(10)申请公布号CN119292524A(43)申请公布日2025.01.10
(21)申请号202411335849.4
(22)申请日2024.09.24
(71)申请人上海迅绎网络科技有限公司
地址201400上海市奉贤区奉城镇东街98
号3幢
(72)发明人向先容邓波邓伟刚
(51)Int.CI.
GO6F3/06(2006.01)
GO6F18/23(2023.01)
GO6F18/2135(2023.01)
GO6F16/22(2019.01)
GO6N3/045(2023.01)
权利要求书4页说明书19页附图3页
(54)发明名称
基于大模型的数据存储方法
(57)摘要
S1
本发明涉及数据存储管理技术领域,尤其涉
及一种基于大模型的数据存储方法。所述方法包括以下步骤:对目标预训练大模型进行输入类簇
S2
分片优化,得到存储模量分片数据;利用存储模
量分片数据构建智能分片存储策略;获取目标模
型训练数据;利用智能分片存储策略对目标模型
训练数据进行智能分片存储,并进行冗余压缩优
化,得到动态冗余存储索引数据;根据动态冗余
S4
存储索引数据进行训练数据存储空间优化,得到
优化数据存储策略。本发明通过对数据进行智能分片存储以及精细化数据冗余压缩,实现了高
119292524ACN效、稳定的模型训练数据访问,解决了大模型训练过程中数据存储和访问效率低下的问题,显著
119292524A
CN
CN119292524A权利要求书1/4页
2
1.一种基于大模型的数据存储方法,其特征在于,包括以下步骤:
步骤S1:对目标预训练大模型进行模型内部参数提取,分别得到多维模型参数矩阵以及输入类型参数矩阵;根据输入类型参数矩阵进行输入类簇分片优化,生成模量输入分片数据;对模量输入分片数据进行分布式存储节点映射,得到存储模量分片数据;
步骤S2:通过多维模型参数矩阵对存储模量分片数据进行智能分片存储策略处理,从而得到智能分片存储策略;获取目标模型训练数据;基于分布式存储管理系统利用智能分片存储策略对目标模型训练数据进行智能分片存储,得到模型训练存储数据;
步骤S3:对模型训练存储数据进行冗余数据块检测,分别得到训练冗余数据以及训练非冗余数据;对训练冗余数据以及训练非冗余数据进行冗余压缩优化,并进行冗余存储索引构建,从而得到动态冗余存储索引数据;根据动态冗余存储索引数据进行数据存储检索优化,生成优化存储训练数据;
步骤S4:对优化存储训练数据进行训练数据调用顺序推理,生成数据调用顺序数据;对数据调用顺序数据进行关键数据识别,并进行快速存取量处理,生成关键存取训练数据;将关键存取训练数据进行数据预加载处理,生成模型训练预加载缓存数据;
步骤S5:对模型训练预加载缓存数据进行数据流多通道并行传输,得到并行传输数据流;将并行传输数据流传输至目标预训练大模型进行模型训练,并进行数据存取命中率反馈,生成缓存命中率数据;根据缓存命中率数据进行训练数据存储空间优化,从而得到优化数据存储策略。
2.根据权利要求1所述的基于大模型的数据存储方法,其特征在于,步骤S1包括以下步
骤:
步骤S11:对目标预训练大模型进行模型内部参数提取,分别得到多维模型参数矩阵以及输入类型参数矩阵,其中,多维模型参数矩阵包括模型注意力权重矩阵、嵌入向量矩阵以及层间激活参数矩阵;
步骤S12:根据输入类型参数矩阵进行主成分降维处理,生成低维模型输入类型参数;
步骤S13:对低维模型输入类型参数进行参数特征离散化处理,生成离散模型输入特征数据;
步骤S14:根据离散模型输入特征数据进行聚类簇分析,并进行全局元数据索引构建,生成模型输入索引结构数据;根据模型输入索引结构数据进行类簇数据分片均衡优化,生成模量输入分片数据;
步骤S15:利用哈希分片算法对模量输入分片数据进行分布式存储节点映射,从而得到存储模量分片数据。
3.根据权利要求2所述的基于大模型的数据存储方法,其特征在于,步骤S14包括以下步骤:
步骤S141:根据离散模型输入特征数据进行特征点相似度计算,生成输入特征相似度数据;
步骤S142:通过输入特征相似度数据对离散模型输入特征数据进行聚类簇分析,生成模型输入聚类簇数据;
步骤S143:对模
您可能关注的文档
- CN119295638A 基于高斯泼溅的图像渲染方法、装置、设备、存储介质及程序产品 (北京大学深圳研究生院).docx
- CN119295621A 基于高斯泼溅的高保真大规模场景渲染方法、系统、设备及介质 (上海赜深数字科技有限公司).docx
- CN119295570A 用于编码-解码点云的几何结构的方法和设备 (交互数字Vc控股公司).docx
- CN119295548A 一种用于制罐冲压的智能定位方法及系统 (广东大地伟业环保包装科技股份有限公司).docx
- CN119295493A 肿瘤消融治疗系统的肿瘤医学影像处理方法及系统 (南京市中医院).docx
- CN119295232A 一种基于人工智能优化系统及方法 (成都进托邦互联网信息服务有限公司).docx
- CN119295065A 基于物联网感知的智慧城市分类识别管理平台及方法 (数字丝路新疆建设运营有限公司).docx
- CN119295060A 工业机器人预测性维护管理方法及系统 (天津赛威工业技术有限公司).docx
- CN119295042A 基于缺陷检测的管道修复方法及系统 (中国水利水电第九工程局有限公司).docx
- CN119294925A 考虑地铁乘客疏散和站点失效传播的公交网韧性评估方法 (福州大学).docx
最近下载
- 膀胱肿瘤行膀胱全切回肠代膀胱围手术护理.pptx VIP
- 高血压达标中心认证评审材料.pdf VIP
- ABB机器人IRB120产品规格说明书.pdf
- 导热油培训教程文件.ppt VIP
- 武装冲突法.doc VIP
- GB50009-2012 建筑结构荷载规范.docx
- 导热油炉培训.ppt VIP
- 雷克萨斯-Lexus RX-产品使用说明书-RX450h-GYL25L-AWXGBC2-RX450hOM_OM48E57C_1510.pdf VIP
- 高血压达标中心数据库管理制度.pdf VIP
- Selected Stories of Lu Hsun By Lu Hsun 英文版鲁迅全集.doc VIP
原创力文档

文档评论(0)