李国杰院士:基于可判定性理论的人工智能系统安全风险分类.docx

李国杰院士:基于可判定性理论的人工智能系统安全风险分类.docx

AI安全风险应按逻辑复杂性分为三类:R1可验证、R2可发现但不可证明安全、R3不可治理。当前AI多属R2,关键不在「证明安全」,而在构建人类主导的制度性刹车机制,拒绝让渡终极控制权。

无论是软件工程、自动控制还是其他形式化方法,它们共享同一个假设:存在一组可穷尽的状态或行为集合,可以在运行前证明系统不会进入危险区域,典型形式包括不变量证明、安全约束证明、模型检查,覆盖所有路径的形式验证等。

这个范式有3个「必须成立」的前提条件:状态空间可穷尽(或可有效逼近),系统行为规则固定,验证者与被验证对象逻辑上分离。

这些条件任

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档