- 13
- 0
- 约3.48千字
- 约 10页
- 2026-02-27 发布于江苏
- 举报
大语言模型的幻觉检测
演讲人:杨熙
北京智源人工智能研究院
智能评测负责人
yangxi@
CONTENTS
02幻觉定义及检测方法
03幻觉检测工具构建
目录
01背景与动机
04总结与展望
背景与动机
大模型创新技术发展的同时,我们还必须不断探索大模型评测技术
大模型能力评估:打造丈量“高山”的尺子
我们所希望的
实际可能的
甚至有可能
大模型能力评估:打造丈量“高山”的尺子
•我们不能预估模型的能力,只能不断探索大模型能力的边界
模型能力探索
模型评测
a发展大模型创新技术的同时,我们必须探索大模型评测技术
科技部:科技创新2030—“新一代人工智能”“人工智能基础模型支撑平台与评测技术”旗舰项目支持下,智源研究院牵头联合多个团队研制(2023~2025)
大模型评测体系及开放评测平台FlagEval天秤
工信部:“产业技术基础公共服务平台项目”“面向人工智能大模型工程化技术及应用的产业公共服务平台”(2024~2026)
•FlagEval已完成数十个国内外主流开源模型的全面
评测,在2023年完成了1800多模型评测次数,并连续14个月发布“大模型月度评测榜单”。
幻觉VS创新
幻觉定义及检测方法
明确检测的对象是什么,才能开发具有针对性的工具
幻觉的定义
Hallu
您可能关注的文档
- 2026年AI大模型-AI Agent 推动 在业务增长中的落地实践-新版课件.pptx
- 2026年AI大模型-ASI从云端降临终端促进放大新智产业链规模效应-新版课件.pptx
- 2026年AI大模型-InstantID:高保真人像风格化的秒级生成-新版课件.pptx
- 2026年AI大模型-RAG 的开放性及企业如何落地-新版课件.pptx
- 2026年AI大模型-大模型赋能数据治理方案-新版课件.pptx
- 2026年-AIGC赋能职业教育教学创变与探索-AI应用.pptx
- 2026年-AIGC行业深度报告ChatGPT:存算一体,算力的下一极-AI应用.pptx
- 2026年-AIGC行业深度报告Sora算力倍增,国产架构+生态崛起-AI应用.pptx
- 2026年-AIGC行业深度报告存算一体算力的下一极-AI应用.pptx
- 2026年-AI大模型研究框架-AI应用.pptx
最近下载
- 脉冲MAG焊接电信号分析及其对焊接工艺的影响.pdf VIP
- 高中生物知识点高中生物知识点.doc VIP
- 2026年卫生专业技术资格考试放射医学技术(中级376)基础知识巩固要点详解.docx VIP
- 人教(2024)数学一下课件 第四单元 口算减法 第1课时 .pptx VIP
- TFDCA 002-2021 化妆品生产用水.pdf
- JW-3型接触网检修作业车技术规格书.docx VIP
- 2025新疆第一师阿拉尔市编外人员招聘117人(公共基础知识)综合能力测试题附答案.docx VIP
- 湖北省武汉市物理高一下学期期末巩固策略解析.docx
- 铁路动车组作业指导书--CRH380BL-I2-04-02-001单辅助变流器检查.doc VIP
- 公司绩效考核的意义与原则.doc VIP
原创力文档

文档评论(0)