呼吸专科大模型能力和应用效果评估评测指标计算方法.docxVIP

  • 0
  • 0
  • 约3.65千字
  • 约 4页
  • 2026-03-12 发布于河南
  • 举报

呼吸专科大模型能力和应用效果评估评测指标计算方法.docx

呼吸专科大模型能力和应用效果评估评测指标计算方法

A.1客观评测指标

A.1.1正确率指标

衡量模型所有预测中有多大比例与标准答案一致,是最常用、最直观的整体性能指标:

Accuracy=

式中:

N:总样本数

yi:第i个

yi:第i个

I:指示函数(判断是否完全一致)

A.1.2F1指标

F1值是基于预测答案与标准答案之间的词级重叠,综合考虑了查准率(Precision)和查全率(Recall)的调和平均数:

Precision

Recall=

F1=

式中:

Prediction:模型输出的答案集合(通常为单词、子词等);

GroundTruth:标准答案集合;

||:集合中元素个数;

∩:集合的交集;

Precision:查准率;

Recall:查全率。

A.1.3EM指标

预测答案与标准答案在文本上完全一致时得分1,否则0。适用于严格要求输出和金标准完全相同的场景:

EM

式中:

N:总样本(问题/句子)数;

yi:第i个

yi:第i个

I:指示函数,当括号内条件成立时取1,否则取0。

A.1.4BLEU指标

统计预测答案与参考答案之间的n-gram(n元组,如1-gram,2-gram等)重叠(匹配)的比例:

BLEU

式中:

BP:长度惩罚因子(BrevityPenalty);

c:候选句子长度;

r:参考答案长度;

wn:n-gram权重,通常均分,如B

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档