李国杰院士:基于可判定性理论的人工智能系统安全风险分类.pdf

李国杰院士:基于可判定性理论的人工智能系统安全风险分类.pdf

AI安全风险应按逻辑复杂性分为三类:R1可验证、R2可发现但不可证明安全、R3不

可治理。当前AI多属R2,关键不在「证明安全」,而在构建人类主导的制度性刹车机

制,拒绝让渡终极控制权。

无论是软件工程、自动控制还是其他形式化方法,它们共享同一个假设:存在一组可穷

尽的状态或行为集合,可以在运行前证明系统不会进入危险区域,典型形式包括不变量

证明、安全约束证明、模型检查,覆盖所有路径的形式验证等。

这个范式有3个「必须成立」的前提条件:状态空间可穷尽(或可有效逼近

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档