摘要
摘要
大语言模型评测是自然语言处理的一项重要任务,旨在探索模型的性能表现
与优化路径。在医疗领域,科学的评测结果不仅可以验证模型的可用性,也可为模
型迭代优化提供指导。然而,现有医学领域大语言模型评测场景比较单一,主要集
中于选择和开放问答,缺乏对真实场景的覆盖。尤其在开放问答中,常采用闭源的
ChatGPT-4作为裁判模型进行对比评测,但其缺乏医学领域的适配,评测过程黑箱
且价格高昂。为此,本文针对上述问题
摘要
摘要
大语言模型评测是自然语言处理的一项重要任务,旨在探索模型的性能表现
与优化路径。在医疗领域,科学的评测结果不仅可以验证模型的可用性,也可为模
型迭代优化提供指导。然而,现有医学领域大语言模型评测场景比较单一,主要集
中于选择和开放问答,缺乏对真实场景的覆盖。尤其在开放问答中,常采用闭源的
ChatGPT-4作为裁判模型进行对比评测,但其缺乏医学领域的适配,评测过程黑箱
且价格高昂。为此,本文针对上述问题
文档评论(0)