重新定义评估标准:用于评估语言模型韩语能力的统一框架-计算机科学-大语言模型-模型评估.pdf

重新定义评估标准:用于评估语言模型韩语能力的统一框架-计算机科学-大语言模型-模型评估.pdf

  1. 1、本文档共11页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

重新定义评估标准:用于评估语言模型韩语能力的统一框架

1,2*1,3*11,4

HanwoolLee,DasolChoi,SooyongKim,IlgyunJung,

1,61,7111,5†

SangwonBaek,GuijinSon,InseonHwang,NaeunLee,SeunghyeokHong

1MODULABS,HAERAELAB

2ShinhanSecurities3YonseiUniversity4Catius5HankukUniversityofForeignStudies

6KoreaUniversity7OneLineAI

gksdnf424@

Abstract2024)。在韩语NLP中,相同模型在不同机构之

间的性能差距可达10个百分点(Researchetal.,

近期在韩国大型语言模型(LLMs)方面的

本进步推动了许多基准测试和评估方法的发2024;Baketal.,2025),这主要是由于提示模

译展,但不一致的协议导致了跨机构高达10板、推理设置和评估标准的变化所驱动的。我

个百分点的表现差距。克服这些可重复性们主张真正的可重复性不来自于一个僵化的框

中差距并不意味着强制执行一种适用于所有架,而是一个能够灵活支持多种评估范式的工

4情况的评估标准。相反,有效的基准测试具包——少样本与对数似然评分、精确匹配与

v

8需要多种实验方法以及足够稳健的支持框生成判断以及测试时缩放技术——这样评估可

6架。为此,我们引入了HRET(海莱评估工

9以适应模型特性和部署环境。

2具包),一个基于注册表的开源框架,统一

2考虑KMMLU(Sonetal.,2024b),其在lm-

.韩国LLM评估。HRET集成了主要的韩国

3基准测试、多个推理后端和多方法评估,并eval-harness中的官方对数似然/直接生成实现

0

5通过语言一致性强制执行来确保真实的韩很少保持不变:实践者通常会通过添加n-shot

2

:语输出。其模块化注册设计还支持快速纳在线示例(Brownetal.,2020)、注入链式思考提

v

i入新的数据集、方法和后端,以确保工具示或应用自洽性(Wangetal.,2023)来更好地捕

x

r包能够适应不断变化的研究需求。除了标捉模型推理。这种定制突显了需要一个可扩展

a

准的准确性指标外,HRET还包括了针对

的评估框架,该框架集成各种韩语基准和推断

韩国语输出的分析——形态感知型词形-词

文档评论(0)

zikele + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档