- 2
- 0
- 约1.6千字
- 约 3页
- 2026-04-21 发布于河南
- 举报
PAGE
PAGE1
OpenCompass(司南)评测框架实战指南
6.1OpenCompass概述
OpenCompass(中文名“司南”)是由上海人工智能实验室于2023年8月推出的大模型开放评测体系,专注于语言大模型和多模态大模型的系统性评估。自发布以来,OpenCompass已经成为全球范围内最受欢迎的开源评测框架之一,被数千个研究团队和企业采用。该框架的核心优势在于其广泛的兼容性:支持超过20种HuggingFace模型和API模型(包括GPT-4、Claude、Llama、Qwen、GLM等),集成了70多个数据集(约40万个问题),覆盖了从基础能力到高级推理的各个维度。
6.2评测对象分类
OpenCompass将评测对象分为两大类:
基座模型:通过海量文本数据以自监督学习方式训练的基础模型,典型代表包括GPT-3、LLaMA、Qwen-base等。基座模型通常只能完成“文本补全”任务,不具备对话能力。评测基座模型时,需要使用零样本或少样本的提示方式,评估其在各种NLP任务上的原始能力。
对话模型:在基座模型基础上经过指令微调(SFT)或人类反馈强化学习(RLHF)获得的交互式模型,典型代表包括ChatGPT、Claude、书生·浦语(InternLM-Chat)等。对话模型能够理解多轮对话上下文,遵循人类指令。评测对话模型时,通常采用单轮或多轮
您可能关注的文档
最近下载
- “十四五”汽车产业发展建议 - CHINACAJ.pdf VIP
- 全国注册公用设备工程师(暖通空调)职业资格考试专业知识(下)真题2025题型大全.docx VIP
- 《围城》教学设计.docx VIP
- CG059-2021_建筑垃圾处理场设置规范2021.12.6.pdf VIP
- 《深圳市泥头车、搅拌车和非道路移动工程机械更新改造工作方案》(已审批)的通知.pdf VIP
- 氯工程电解操作手册.pdf VIP
- 2026年上海市徐汇区初三上学期一模数学试卷和参考答案.docx VIP
- 2026华能(浙江)能源开发有限公司玉环分公司应届高校毕业生招聘考试备考题库及答案解析.docx VIP
- 杜邦反渗透和纳滤膜元件产品与技术手册(陶氏DOW)2020.pdf
- ZX119-10型兆欧表检定装置说明书 - 镇江市计量实验工厂.doc VIP
原创力文档

文档评论(0)