- 0
- 0
- 约2.9万字
- 约 10页
- 2026-03-06 发布于北京
- 举报
GreenMind:面向结构化和逻辑推理的下一代越南大型语言模型
1112
LuuQuyTungHoangQuocVietPhamBaoLocVoTrongThu
12
GreenNode.aiJohnVonNeumannInstitute
{tunglq,viethq5,locpb}@greennode.ai,thuvt@.vn
Abstract的词。因此,仅生成一个短的词序列作为最终
输出并不能保证正确性,因为这些分布仅取决
思维链(CoT)是一种强大的方法,适用于
需要在生成最终答案之前进行中间推理步于先前的输入词。这意味着模型通常缺乏对正
本骤的大型语言模型任务。在这篇论文中,我确答案进行推理所需的上下文理解。为了解决
1
译们介绍了GreenMind-Medium-14B-R1,这个问题,CoT(Weietal.,2022b)技术仍然
中这是一个受到基于组相对策略优化微调策是充分利用下一词预测能力的有效方法。CoT
2略启发的越南语推理模型。我们还利用了鼓励模型阐述一系列中间推理步骤,这有助于
v一个高质量的合成推理数据集,并设计了
2两个奖励函数来解决该技术的主要限制:i)解决需要多步逻辑思维的任务。为了进一步增
3强语言模型的推理能力,已经提出了一系列基
8语言混合,在标记采样过程中明确检测偏
6于强化学习的方法。通过人类反馈的强化学习
1见语言字符的存在;ii)我们使用基于句子
4.转换器的模型,确保生成的推理内容保持(RLHF)(Ouyangetal.,2022)利用人类提供
0事实正确性且不会扭曲最终输出。在2023的反馈来完善LLM输出,确保CoT生成的推
5
2年VLSP挑战赛中的越南语数据集上的实理步骤更符合人类的判断和推理。近端策略优
:
v验结果表明,我们的模型优于先前的工作,化(PPO)通过使用裁剪的目标函数更新推理
i
x并增强了其响应的语言一致性。此外,我策略,平衡探索和利用,这有助于避免大的、
r们将评估扩展到SeaExam——一个多语言
a破坏性的变化,同时增强CoT在多个步骤中
多项选择数据集,显示了与少样本提示技
的推理能力。
术相比,我们推理方法的有效性。
1介绍在这项研究中,我们介绍了GreenMind-
Medium-14B-R1,一种能够为越南社区任务进
大型语言模型(LLM)的快速发展改变了
行推理的微调LLM模型。我们的模
您可能关注的文档
最近下载
- 高中数学竞赛与常规教学融合的实践路径优化与探索教学研究课题报告.docx
- 2025年高中英语课件分享.pptx VIP
- 智能电子材料的发展.pptx VIP
- 2024年江西航空职业技术学院单招职业技能测试题库(综合卷).docx VIP
- 高中数学竞赛教学与常规课程互动模式构建与实践教学研究课题报告.docx
- 儿科学(第10版)儿童心肺复苏.pptx VIP
- 四川省成都市石室中学2024-2025学年高一下学期3月月考 数学试题(含解析).docx VIP
- 学堂在线 雨课堂 学堂云 医学科研设计 章节测试答案.docx VIP
- 2026年河南工业和信息化职业学院单招职业技能考试题库及一套参考答案详解.docx VIP
- 高中数学竞赛与常规教学融合的课堂实践研究教学研究课题报告.docx
原创力文档

文档评论(0)