PAGE2
语言模型预训练
参考学时
2学时(90分钟)。
教学目标(能力要求)
系统梳理语言模型预训练的基本概念、演变过程及“预训练+微调”与“预训练+提示”范式的基本内容;
学生能深入理解Transformer中自注意力机制(Self-Attention)的查询(Q)、键(K)、值(V)矩阵的作用以及整体的计算过程;
学生能理解BERT与GPT模型的网络结构差异(编码器vs解码器)、训练任务(掩码语言模型vs文本预测)及下游任务应用场景;
学生能基本阐述模型压缩的主要方法,包括知识蒸馏、剪枝、量化的基本内容;
学生能基本阐述大语言模型的指令微调与对齐微调的主要策略;
学生能
您可能关注的文档
最近下载
- (正式版)DB43∕T 845-2013 《靖州干茯苓》.pdf VIP
- 降低腹腔镜术后腹胀发生率(共57页).pptx
- 2026年新疆社区工作者招聘考试历年参考题库含答案详解.docx
- 工程项目的固废处置方案(3篇).docx
- 05X101-2地下通信线缆敷设(标准图集).pdf VIP
- 急性心梗诊疗(2025最新指南)解读PPT课件.pptx VIP
- 急性心梗诊疗(2025+最新指南)解读PPT课件.pptx VIP
- 阿尔茨海默病(老年痴呆)患者的护理查房.pptx VIP
- 2023--2024学年人教版数学七年级下册期末模拟试卷(含答案).pdf VIP
- 建筑工程制图与识图题库练习及答案.docx VIP
原创力文档

文档评论(0)