2026年-AiCon：大语言模型的幻觉检测-AI大模型应用.pptxVIP

2026年-AiCon：大语言模型的幻觉检测-AI大模型应用.pptx

大语言模型的幻觉检测

演讲人：杨熙

北京智源人工智能研究院

智能评测负责人

yangxi@

CONTENTS

02幻觉定义及检测方法

03幻觉检测工具构建

01背景与动机

04总结与展望

背景与动机

大模型创新技术发展的同时，我们还必须不断探索大模型评测技术

大模型能力评估：打造丈量“高山”的尺子

我们所希望的

实际可能的

甚至有可能

大模型能力评估：打造丈量“高山”的尺子

•我们不能预估模型的能力，只能不断探索大模型能力的边界

模型能力探索

模型评测

a发展大模型创新技术的同时，我们必须探索大模型评测技术

科技部：科技创新2030—“新一代人工智能”“人工智能基础模型支撑平台与评测技术”旗舰项目支持下，智源研究院牵头联合多个团队研制(2023~2025)

大模型评测体系及开放评测平台FlagEval天秤

工信部：“产业技术基础公共服务平台项目”“面向人工智能大模型工程化技术及应用的产业公共服务平台”(2024~2026)

•FlagEval已完成数十个国内外主流开源模型的全面

评测，在2023年完成了1800多模型评测次数，并连续14个月发布“大模型月度评测榜单”。

幻觉VS创新

幻觉定义及检测方法

明确检测的对象是什么，才能开发具有针对性的工具

幻觉的定义

Hallu

更多 >