- 1、本文档共11页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
重新定义评估标准:用于评估语言模型韩语能力的统一框架
1,2*1,3*11,4
HanwoolLee,DasolChoi,SooyongKim,IlgyunJung,
1,61,7111,5†
SangwonBaek,GuijinSon,InseonHwang,NaeunLee,SeunghyeokHong
1MODULABS,HAERAELAB
2ShinhanSecurities3YonseiUniversity4Catius5HankukUniversityofForeignStudies
6KoreaUniversity7OneLineAI
gksdnf424@
Abstract2024)。在韩语NLP中,相同模型在不同机构之
间的性能差距可达10个百分点(Researchetal.,
近期在韩国大型语言模型(LLMs)方面的
本进步推动了许多基准测试和评估方法的发2024;Baketal.,2025),这主要是由于提示模
译展,但不一致的协议导致了跨机构高达10板、推理设置和评估标准的变化所驱动的。我
个百分点的表现差距。克服这些可重复性们主张真正的可重复性不来自于一个僵化的框
中差距并不意味着强制执行一种适用于所有架,而是一个能够灵活支持多种评估范式的工
4情况的评估标准。相反,有效的基准测试具包——少样本与对数似然评分、精确匹配与
v
8需要多种实验方法以及足够稳健的支持框生成判断以及测试时缩放技术——这样评估可
6架。为此,我们引入了HRET(海莱评估工
9以适应模型特性和部署环境。
2具包),一个基于注册表的开源框架,统一
2考虑KMMLU(Sonetal.,2024b),其在lm-
.韩国LLM评估。HRET集成了主要的韩国
3基准测试、多个推理后端和多方法评估,并eval-harness中的官方对数似然/直接生成实现
0
5通过语言一致性强制执行来确保真实的韩很少保持不变:实践者通常会通过添加n-shot
2
:语输出。其模块化注册设计还支持快速纳在线示例(Brownetal.,2020)、注入链式思考提
v
i入新的数据集、方法和后端,以确保工具示或应用自洽性(Wangetal.,2023)来更好地捕
x
r包能够适应不断变化的研究需求。除了标捉模型推理。这种定制突显了需要一个可扩展
a
准的准确性指标外,HRET还包括了针对
的评估框架,该框架集成各种韩语基准和推断
韩国语输出的分析——形态感知型词形-词
您可能关注的文档
- 无人机飞行安全及法律法规第3版:飞行有关法律法规PPT教学课件.pptx
- 无人机飞行安全及法律法规第3版:飞行安全管理机构PPT教学课件.pptx
- 机械制图与计算机绘图:形体的建模与视图表达PPT教学课件.pptx
- 无人机飞行安全及法律法规第3版:航空气象与飞行环境PPT教学课件.pptx
- 商务礼仪:涉外商务礼仪PPT教学课件.pptx
- 建筑工程资料管理:建筑施工安全管理资料PPT教学课件.pptx
- 无人机电机与电调技术:无人机控制电机与控制技术PPT教学课件.ppt
- 土木工程概论:建筑工程PPT教学课件.pptx
- 土木工程概论:其他工程PPT教学课件.pptx
- 无人机飞行安全及法律法规第3版:绪论PPT教学课件.pptx
文档评论(0)