- 1
- 0
- 约3.1万字
- 约 46页
- 2026-06-11 发布于江西
- 举报
2025年算法技术与产业发展手册
第1章前沿算法架构演进
1.1大模型基座与参数高效微调技术
基座模型作为大(LLM)的核心,目前主流架构已从传统的Transformer架构向混合注意力机制(MHA)演进,通过在多头注意力模块中引入跨层线性变换(Cross-Attention)和位置编码,显著提升了模型对长文本序列的上下文保留能力。在实际部署中,如通义千问(Qwen)系列,其基座模型在保持推理速度提升20%的同时,显存占用降低了15%,这得益于动态稀疏注意力机制的引入,使得模型在计算复杂度和显存占用之间取得了最优平衡。参数高效微调(PEFT)技术旨在利用少量参数进行高效的
原创力文档

文档评论(0)