[AI工具宝典]当AI开始“踢脏球”，你还敢信任强化学习吗？.pdfVIP

下载本文档

0
0
约4.95千字
约 8页
2024-07-18 发布于上海
举报
版权申诉

[AI工具宝典]当AI开始“踢脏球”，你还敢信任强化学习吗？.pdf

此“医疗卫生”领域文档为创作者个人分享资料，不作为权威性指导和指引，仅供参考

1、本文档共8页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

以当下人类对大脑的了解，在认知过程、解决问题的过程以及思考的能力等机制还都不清

楚。所以想要模拟人类的思考能力，强化学习乃至整个机器学习的升级，恐怕还依托于脑

神经科学的发展。

足球机器人排成一排向球门发起射击，但守门员却并没有准备防守，而是一屁股倒在地上

开始胡乱摆动起了双腿。然后，前锋跳了一段十分令人困惑的舞蹈，跺跺脚，挥挥手，啪

叽一下摔倒在地上。然后比分守门员1-0。

这场景像不像比国足对战梵蒂冈（并没有），一切都是那么迷幻且不真实。如果说它是阿

尔法狗和OpenAIFive等的“同门师兄弟”，都是用强化学习训练出来的，大家想不想

开除它的“AI籍”？

显然，虽然曾经大败柯洁李世石，团灭Dota2国家队，并被视作AGI（通用人工智能）

必由之路，但强化学习算法，头顶上始终有着一口摘不掉的“安全性”大黑锅。

而这也是阻止它真正落地应用的根本原因。毕竟没有人希望自动驾驶汽车开着开着就把乘

客带到沟里去，或者是机器人端一杯开水直接浇到主人头上。

到底为什么，强化学习总会犯一些匪夷所思的错误，有研究人员认为，这是因为系统中的

智能体可能会被一些怪异的行为所欺骗。

具体是怎么回事呢？研究原本打算今年4月在埃塞俄比亚举行的学习代表国际会议上发表

，目前看来能顺利召开的概率几乎不存在，所以我们就提前云解读，来聊聊看似稳健的强

化学习策略背后，究竟掩盖着哪些严重的缺陷。

不省心的AI：告别脏数据，但学会了脏行为

强化学习取代监督学习，成为深度学习领域的“未来之星”，不是没有原因的。因为监督

学习是通过标记好的数据集来进行训练的，这意味着，如果对输入的数据进行一些微小的

调整，比如改变图像的像素或是更换语音包的内容，都可能让AI陷入混乱，有可能将虫

子识别为赛车，让绅士学会脏话……

与之相比，强化学习就智能多了。因为它是模仿人类的学习模式，能体（Agent）以“试

错”的方式进行学习，通过与环境进行交互，以获得最大的奖赏为追求来做出行为反应。

就像不断告诉小孩子好好写作业就有好吃的食物奖励，不好好写就关小黑屋，久而久之为

了“利益最大化”，自然就会将写作业与好吃的联系起来，去产生正确的动作。

通过这种“行动-评价”机制来获得知识，改进行动以适应环境，是不是聪明了许多。这

也是为什么，人类开始让强化学习玩游戏、开汽车、搞药物实验……

但研究证明，强化学习的效果并没有预期的那么稳定，很容易受到篡改输入的影响。加州

大学伯克利分校的亚当·格里夫（AdamGleave）发现，强化学习不会因为添加少量噪音

（不适当的输入）而被破坏，因为智能体（agent）可能根本看不到那些东西，而如果改

变它周围事物的行为方式，智能体却会被那些奇奇怪怪的行为所欺骗，进而产生一些奇怪

的“对抗”策略。

比如开篇提到的足球比赛，当“守门员”开始不按规矩出牌，“前锋”也就跟着瞎舞动起

来了。这种错误的“对抗性策略”，导致的安全威胁可能会更大。

首先，比起投喂给监督学习“脏数据”，强化学习“被误导”，受影响的将是AI系统的

整体行为。如果说数据集被污染会让AI准确率下降，那么强化学习错误训练出的AI有可

能将摄像头输入的信息错误分类，然后指导传感器做出预期之外的反应。比如行人突然挥

舞手臂，无人驾驶汽车就失控了……这，听起来还是挺“灾难片”的。

其次，超强的学习能力也会导致研究人员根本来不及发现和纠正AI的错误行为。研究小

组利用强化学习训练棒形机器人玩两人游戏，包括踢一个球进一个球，横越一条线，和相

扑等等。然后，又训练了第二组机器人来寻找打败第一组机器人的方法。

结果发现，第二组机器人很快发现了对抗策略，并用不到3%的训练时间后就学会了可靠

地击败受害者，要知道受害者可是在第一时间就学会了玩游戏啊。这就像新来的高智商版

的胖虎同学，拼命欺负大雄，老师还没办法及时发现，妥妥的校园霸凌啊！

显然，第二组机器人的努力并不是为了成为更好的球员，而是通过发现对手策略来制敌并

赢得胜利。在足球比赛和跑步比赛中，对手有时甚至都站不起来。这会使受害者坍塌成一

堆扭曲的东西，或者在周围扭动，那场面，真是猛男都不忍看……

我估计吧，叛逆的智能体同学可能是这么想的：

听说打赢有奖，但我啥都不会，先溜达

您可能关注的文档

文档评论（0）

LOONG + 关注: 实名认证

文档贡献者

三步一卡，卡的潇洒；五步一停，摆个造型。

咨询Ta 进入空间

1亿VIP精品文档

更多 >

[AI工具宝典]当AI开始“踢脏球”，你还敢信任强化学习吗？.pdfVIP