人工评估与红队测试：不可替代的“人”的价值.docxVIP

人工评估与红队测试：不可替代的“人”的价值.docx

PAGE

PAGE1

人工评估与红队测试：

不可替代的“人”的价值

7.1为什么人工评估不可或缺？

尽管自动化评估（包括基准测试和LLM-as-a-Judge）在效率和可扩展性上具有明显优势，但它无法完全替代人类的判断。人工评估的价值体现在以下几个方面：

捕捉语义细微差别：人类能够理解比喻、讽刺、隐喻、含蓄表达等复杂的语言现象。例如，当模型回答“这个方案真是‘完美’到无可挑剔”时，在上下文中可能是反讽。自动化指标会从字面理解，认为这是正面评价，而人类标注者能够准确识别反讽的负面含义。

评估创造力：新颖性、趣味性、情感共鸣、审美价值等创造力维度很难用规则或指标量化。一篇生成的故事可能语法正确、主题相关，但读起来枯燥乏味；另一篇可能略有瑕疵，但创意十足。人类读者能轻易区分这两者，而自动评估却无能为力。

发现自动化指标遗漏的问题：BLEU值很高的生成结果，可能存在逻辑矛盾、事实错误或风格不一致的问题，但这些缺陷不会被n-gram匹配捕捉到。人类标注者在阅读时能一眼识别出这些问题。

校准自动化评估：少量高质量的人工标注样本可以作为“黄金标准”，用于评估和校准LLM-as-a-Judge的可靠性。例如，可以计算Judge模型的评分与人工评分的相关性，当相关性下降时，说明Judge模型可能出现了偏差，需要重新校准或更换。

7.2红队测试

红队测试（RedTeaming）是

更多 >