Aya-23 使用哪种语言？多语言如何影响内部语言表示-计算机科学-大语言模型-多语言训练.pdfVIP

Aya-23 使用哪种语言？多语言如何影响内部语言表示-计算机科学-大语言模型-多语言训练.pdf

Aya-23使用哪种语言？多语言如何影响内部语言表示

1,1,22

KatharinaTrinley,ToshikiNakai,TatianaAnikina,TanjaBaeumel

1SaarlandUniversity

2GermanResearchCenterforArtiﬁcialIntelligence(DFKI)

{katr00001,tona00002}@stud.uni-saarland.de

Abstract多语言模型在中间处理过程中通常默认

使用英语，正如多语言工作流（MWork）假设

大型语言模型（LLMs）在多语言任务中表

现出色，但其内部语言处理机制仍不为人(Zhaoetal.,2024)所描述的那样，这表明LLMs

所理解。我们分析了仅解码器的LLM——将非英语输入内部转换为英语后再生成输出。

Aya-23-8B，在处理代码混合、完形填空和支持这一点的是对推理语言模型（RLMs）

翻译任务时与主要单语模型如Llama3和(Wangetal.,2025)的研究发现，即使在其他输

本Chinese-LLaMA-2相比的表现。通过使用入语言中也依赖于内部的“枢轴”语言或脚本。

译logit镜头和神经元专业化分析，我们发现：然而，这种偏好是否仅限于RLMs还是所有多

中(1)Aya-23在翻译过程中激活了类型相关的语言LLMs中的普遍模式尚不清楚。因此，我

1语言表示，不同于以英语为中心的模型依

v赖单一中介语言；(2)代码混合神经元激活们问：

7模式随混合率变化，并且受基础语言的影

2响大于混合进来的语言；以及(3)Aya-23针H1:平衡的多语言模型如何处理翻译任务——它们是

0否会同时激活多种语言，而不像以英语为中心的模型

2对代码混合输入的语言特异性神经元集中那样依赖单一的中介语言？

7在最终层，这与之前对仅解码器模型的研

0究结果不同。进一步的神经元重叠分析显神经元级别的分析已经识别出特定于语言

2示，书写系统的相似性和类型学关系影响的模式(Kojimaetal.,2024;Tangetal.,2024)，但

v了跨模型类型的处理方式。这些发现揭示这些研究主要考察以英语为基础的模型，因此

x了多语言训练如何塑造LLM内部结构，并尚不清楚多语种训练是否会导致根本不同的内

a为未来的跨语言转移研究提供了信息。

部处理机制。虽然大语言模型的语言能力与特

1介绍定的神经元子集有关，特别是在早期和晚期层

(Kojimaetal.,2024;Tangetal.,2024)中，但在

更多 >