- 1、本文档共7页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
基于国产大模型底座和可编排工作流的多角色协作规划方案
LLM智能交互理
解式规划意图
LLM智能任务分
配和调度调整
1.基于领域语料库的用户指令语义意图翻译模型
(1)数据准备
1)STT预处理
调研第三方STT(SpeechToText)技术,比如字节、科大讯飞等
公司的公开能力,将用户输入的语音指令转为文本型用户指令。
在STT模型选择过程中,将标准语音数据集转换为JSON格式,
每个JSON文件应包含转录的文本(Transcript)、置信度(Confidence)
和开始时间(StartTime)等信息。需要着重考虑以下指标:
置信度:比较STT模型在相同语音样本上的置信度。如果STT
模型在多个样本上均表现出较高的置信度,那么它具有更好的转
录效果。
开始时间:检查STT模型提供的开始时间是否与原始音频中的语
音片段起始时间一致,验证模型在时间同步方面的准确性。
WER/SER
词错误率()句错误率():使用语音识别评估工具,
评估STT模型转录文本与参考文本之间的差异。
特殊场景下的泛化能力:针对某些特定场景(如噪音环境、口音
等),评估STT模型的转录效果。
2)构造领域内训练语料
pdf/
通过图片转文本的技术能力,处理指挥预案文件、相关领域
文献资料等文件转为纯文本文档;
依赖专家知识,将纯文本文档构建为训练语料,语料的形式参考
如下:
Input:【文本型用户指令】【纯文本文档】
Output:【任务点总结】
此处需要充分利用领域内专家知识,构建一定规模的、指令多样
的训练集。
3)构造长文本通用语料
结合后续模型训练,如果模型对于长文本的处理能力欠缺的话,
针对性补充长文本的通用语料,用以增强语义意图翻译模型对文档的
细节提取、总结概括等能力。
2
()模型训练
1)基座选择
调研业界国内外排名前列的开源模型基座,比如国外的lamma、
国内的通义千问、deepseek等开源基座,综合合规性、资源成本、模
型效果、推理效率等指标筛选最佳的大模型基座。
2)SFT模型训练
使用构建的训练集,对筛选的大模型基座进行SFT模型训练,通
过数据混比、超参调节等多种手段持续提升SFT模型的指令遵循能
力。
当进行SFT训练时,模型权重会根据与真实Output的差异进行调
整,模型能够进一步捕捉本任务中数据的模式和特点。它本质是一个
nexttokenprediction的任务,只是当前更关注answer部分的loss。针
对Input,我们会构建一个mask矩阵来屏蔽它,使得其不进行loss
计算。
考虑到大模型微调时,前面step中模型参数变化较快,同时loss
下降较快快;后面step模型参数变化幅度较小,loss变化幅度变小,
逐渐收敛。此外,考虑到资源成本,采用lora进行参数微调,并在此
基础上,动态调整学习率。
3)基于dpo的强化学习
在SFT模型的基础上,进一步构建偏好数据,进行强化学习的训
练,进一步提升模型遵循人类偏好的能力。
rlhf:在传统的rlhf框架中,指令的选择偏好(人类偏好)用来训
练一个奖励模型,该模型预测对于给定输入和输出对的偏好强度;然
后,使用强化学习算法优化模型以最大化预测奖励。
dpo:避免了显式训练奖励模型,定义一个基于指令选择偏好(人
类偏好)的目标函数,直接将偏好转化为模型训练的损失函数,根据
dporlhf
指令选择偏好优化模型。因此,可以避免流程中奖励模型拟
合和强化学习优化的复杂性和不稳定性。
具体地,指令选择偏好建模为相对于偏向于两个潜在输出中
文档评论(0)