基于多任务和裁判模型的医学领域大语言模型评测研究.pdf

基于多任务和裁判模型的医学领域大语言模型评测研究.pdf

摘要

摘要

大语言模型评测是自然语言处理的一项重要任务,旨在探索模型的性能表现

与优化路径。在医疗领域,科学的评测结果不仅可以验证模型的可用性,也可为模

型迭代优化提供指导。然而,现有医学领域大语言模型评测场景比较单一,主要集

中于选择和开放问答,缺乏对真实场景的覆盖。尤其在开放问答中,常采用闭源的

ChatGPT-4作为裁判模型进行对比评测,但其缺乏医学领域的适配,评测过程黑箱

且价格高昂。为此,本文针对上述问题

文档评论(0)

1亿VIP精品文档

相关文档