OpenCompass（司南）评测框架实战指南.docxVIP

下载本文档

2
0
约1.6千字
约 3页
2026-04-21 发布于河南
举报

OpenCompass（司南）评测框架实战指南.docx

PAGE

PAGE1

OpenCompass（司南）评测框架实战指南

6.1OpenCompass概述

OpenCompass（中文名“司南”）是由上海人工智能实验室于2023年8月推出的大模型开放评测体系，专注于语言大模型和多模态大模型的系统性评估。自发布以来，OpenCompass已经成为全球范围内最受欢迎的开源评测框架之一，被数千个研究团队和企业采用。该框架的核心优势在于其广泛的兼容性：支持超过20种HuggingFace模型和API模型（包括GPT-4、Claude、Llama、Qwen、GLM等），集成了70多个数据集（约40万个问题），覆盖了从基础能力到高级推理的各个维度。

6.2评测对象分类

OpenCompass将评测对象分为两大类：

基座模型：通过海量文本数据以自监督学习方式训练的基础模型，典型代表包括GPT-3、LLaMA、Qwen-base等。基座模型通常只能完成“文本补全”任务，不具备对话能力。评测基座模型时，需要使用零样本或少样本的提示方式，评估其在各种NLP任务上的原始能力。

对话模型：在基座模型基础上经过指令微调（SFT）或人类反馈强化学习（RLHF）获得的交互式模型，典型代表包括ChatGPT、Claude、书生·浦语（InternLM-Chat）等。对话模型能够理解多轮对话上下文，遵循人类指令。评测对话模型时，通常采用单轮或多轮

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

OpenCompass（司南）评测框架实战指南.docxVIP