OpenCompass(司南)评测框架实战指南.docxVIP

  • 2
  • 0
  • 约1.6千字
  • 约 3页
  • 2026-04-21 发布于河南
  • 举报

OpenCompass(司南)评测框架实战指南.docx

PAGE

PAGE1

OpenCompass(司南)评测框架实战指南

6.1OpenCompass概述

OpenCompass(中文名“司南”)是由上海人工智能实验室于2023年8月推出的大模型开放评测体系,专注于语言大模型和多模态大模型的系统性评估。自发布以来,OpenCompass已经成为全球范围内最受欢迎的开源评测框架之一,被数千个研究团队和企业采用。该框架的核心优势在于其广泛的兼容性:支持超过20种HuggingFace模型和API模型(包括GPT-4、Claude、Llama、Qwen、GLM等),集成了70多个数据集(约40万个问题),覆盖了从基础能力到高级推理的各个维度。

6.2评测对象分类

OpenCompass将评测对象分为两大类:

基座模型:通过海量文本数据以自监督学习方式训练的基础模型,典型代表包括GPT-3、LLaMA、Qwen-base等。基座模型通常只能完成“文本补全”任务,不具备对话能力。评测基座模型时,需要使用零样本或少样本的提示方式,评估其在各种NLP任务上的原始能力。

对话模型:在基座模型基础上经过指令微调(SFT)或人类反馈强化学习(RLHF)获得的交互式模型,典型代表包括ChatGPT、Claude、书生·浦语(InternLM-Chat)等。对话模型能够理解多轮对话上下文,遵循人类指令。评测对话模型时,通常采用单轮或多轮

文档评论(0)

1亿VIP精品文档

相关文档