- 0
- 0
- 约3.65千字
- 约 4页
- 2026-03-12 发布于河南
- 举报
呼吸专科大模型能力和应用效果评估评测指标计算方法
A.1客观评测指标
A.1.1正确率指标
衡量模型所有预测中有多大比例与标准答案一致,是最常用、最直观的整体性能指标:
Accuracy=
式中:
N:总样本数
yi:第i个
yi:第i个
I:指示函数(判断是否完全一致)
A.1.2F1指标
F1值是基于预测答案与标准答案之间的词级重叠,综合考虑了查准率(Precision)和查全率(Recall)的调和平均数:
Precision
Recall=
F1=
式中:
Prediction:模型输出的答案集合(通常为单词、子词等);
GroundTruth:标准答案集合;
||:集合中元素个数;
∩:集合的交集;
Precision:查准率;
Recall:查全率。
A.1.3EM指标
预测答案与标准答案在文本上完全一致时得分1,否则0。适用于严格要求输出和金标准完全相同的场景:
EM
式中:
N:总样本(问题/句子)数;
yi:第i个
yi:第i个
I:指示函数,当括号内条件成立时取1,否则取0。
A.1.4BLEU指标
统计预测答案与参考答案之间的n-gram(n元组,如1-gram,2-gram等)重叠(匹配)的比例:
BLEU
式中:
BP:长度惩罚因子(BrevityPenalty);
c:候选句子长度;
r:参考答案长度;
wn:n-gram权重,通常均分,如B
您可能关注的文档
- 农作物种子质量检验机构符合性核查表.docx
- 智慧消防与安防系统联动集成调试方案编制指南.docx
- 零碳(近零碳)场站基本要求评价表、评价报告模版.docx
- 高压互感器在线状态评价比值误差和相位误差、评价装置、电力互感器运行状态评价平台评价数据计算方法.pdf
- 源网荷储一体化控制平台数据采集种类和周期.pdf
- 物联网终端数据安全威胁说明.pdf
- 在役机械设备安全升级设计时常用的B类标准.pdf
- 印刷媒体碳足迹生命周期各阶段数据收集清单、欧洲、德国和泰国印刷媒体产品碳足迹量化结果示例.pdf
- 文化娱乐休闲服务类企业公共信用行业指标、文化企业市场信用评价指标.pdf
- 自然灾害承灾体分类新旧类目和代码对照表.pdf
原创力文档

文档评论(0)