GreenMind：面向结构化和逻辑推理的下一代越南大型语言模型.pdfVIP

GreenMind：面向结构化和逻辑推理的下一代越南大型语言模型.pdf

GreenMind：面向结构化和逻辑推理的下一代越南大型语言模型

1112

LuuQuyTungHoangQuocVietPhamBaoLocVoTrongThu

GreenNode.aiJohnVonNeumannInstitute

{tunglq,viethq5,locpb}@greennode.ai,thuvt@.vn

Abstract的词。因此，仅生成一个短的词序列作为最终

输出并不能保证正确性，因为这些分布仅取决

思维链（CoT）是一种强大的方法，适用于

需要在生成最终答案之前进行中间推理步于先前的输入词。这意味着模型通常缺乏对正

本骤的大型语言模型任务。在这篇论文中，我确答案进行推理所需的上下文理解。为了解决

译们介绍了GreenMind-Medium-14B-R1，这个问题，CoT(Weietal.,2022b)技术仍然

中这是一个受到基于组相对策略优化微调策是充分利用下一词预测能力的有效方法。CoT

2略启发的越南语推理模型。我们还利用了鼓励模型阐述一系列中间推理步骤，这有助于

v一个高质量的合成推理数据集，并设计了

2两个奖励函数来解决该技术的主要限制：i)解决需要多步逻辑思维的任务。为了进一步增

3强语言模型的推理能力，已经提出了一系列基

8语言混合，在标记采样过程中明确检测偏

6于强化学习的方法。通过人类反馈的强化学习

1见语言字符的存在；ii)我们使用基于句子

4.转换器的模型，确保生成的推理内容保持（RLHF）(Ouyangetal.,2022)利用人类提供

0事实正确性且不会扭曲最终输出。在2023的反馈来完善LLM输出，确保CoT生成的推

2年VLSP挑战赛中的越南语数据集上的实理步骤更符合人类的判断和推理。近端策略优

v验结果表明，我们的模型优于先前的工作，化（PPO）通过使用裁剪的目标函数更新推理

x并增强了其响应的语言一致性。此外，我策略，平衡探索和利用，这有助于避免大的、

r们将评估扩展到SeaExam——一个多语言

a破坏性的变化，同时增强CoT在多个步骤中

多项选择数据集，显示了与少样本提示技

的推理能力。

术相比，我们推理方法的有效性。

1介绍在这项研究中，我们介绍了GreenMind-

Medium-14B-R1，一种能够为越南社区任务进

大型语言模型（LLM）的快速发展改变了

行推理的微调LLM模型。我们的模

更多 >