6.行为智能完整版.ppt

下载文档

0
0
约5.07千字
约 45页
2023-11-25 发布于湖北
举报
版权申诉
保障服务

6.行为智能完整版.ppt

1、本文档共45页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

AI:Nouvelle AI * 经典示例- 房间里的机器人向上的行为: 80% 移动到了上方, 10% 移动到了左方, 10% 移动到了右方在[4,3]处奖励为+1, 在[4,2]处的奖励为-1, 其他步为0 Russell and Norvig, Artificial Intelligence: A Modern Approach, 2ed edition,2006 AI:Nouvelle AI * 经典示例– 杆平衡在一个移动的平板车上面让一个长杆平衡直立 Russell and Norvig, Artificial Intelligence: A Modern Approach, 2ed edition,2006 AI:Nouvelle AI * 不需要模型的方法: Q-学习算法学习V ?* (简记为V*) 对于任何状态s，执行向前搜索以选出最好的行动如果智能体已知下面函数将会得到很好的效果 fS : 状态 ? 行为 ? 状态 fR : 状态 ? 行为 ? R 如果fS 和fR 未知, 将不能通过这种方式选择下一步行为 AI:Nouvelle AI * Q-值定义一个与 V*相似的新的函数如果智能体对Q进行学习，将能够在fS 和 fR 未知的情况下选择最优行动 AI:Nouvelle AI * r(状态, 行为) 立即收益值 Q(状态, 行为) 值 V*(状态) 值 100 0 0 100 G 0 0 0 0 0 0 0 0 0 90 81 100 G 0 81 72 90 81 81 72 90 81 100 G 90 100 0 81 90 100 Q-值的计算使用折扣收益，折扣因子为0.9 81=0+0.9*90 AI:Nouvelle AI * 学习Q-值注意: Q 和 V* 密切相关将Q写成递归形式：使用Q-值问题: 如何学习? 问题: 如何选择最优行为? AI:Nouvelle AI * Q-学习步骤对于每一个s, a 初始化Q-值观察到当前状态s 重复以下步骤根据当前Q-函数选择动作获得奖励r 观察到新的状态 s’ 令令s = s’ AI:Nouvelle AI * Q-学习举例: 汉诺塔 /kardi/tutorial/ReinforcementLearning/Tower-of-Hanoi.htm AI:Nouvelle AI * 带奖励值的状态图 AI:Nouvelle AI * R 矩阵初始Q Q 矩阵最终 Q Q 矩阵更新 AI:Nouvelle AI * 红箭头指示的是从起始节点到目标节点的最优路径实际上,图中的Q值可以用于从图中任何一个起始节点（不只是状态1）通过最短路径走到目标节点状态图里的解决路径 AI:Nouvelle AI * Q-学习演示：路径学习器 AI:Nouvelle AI * 总结行为智能没有表示和推理的智能 Situated AI 智能体弱概念和强概念结构类型有慎思型 (BDI模型), 反应型 (包容结构,网络结构), and 混合型 (PRS, 图灵机， InteRRaP) AI:Nouvelle AI * 总结使用强化学习得到智能体不同于监督学习和非监督学习从奖励和惩罚中学习试错交互 Q-学习 * * AI:Nouvelle AI 行为智能第 6 章 AI:Nouvelle AI * 大纲智能体 - 结构 ? 没有表示和推理的智能 - 学习强化学习 - Q-学习 AI:Nouvelle AI * PartⅠ: 智能体 AI:Nouvelle AI * 机器人世界杯2008 决赛中国，苏州到2050年，组建一个可以取胜人类足球冠军队的全自主机器人队伍。 - AI:Nouvelle AI * 远程智能体实验(RAX) Deep Space 1 mission to validate technologies AI software in primary command of spacecraft Tests in May 1999 NANA, USa AI:Nouvelle AI * 1.1 智能体定义 Russell and Norvig: “能够通过传感器感知环境并根据环境做出行动的任何系统” AI:Nouvelle AI * 智能体的弱概念五个主要特点: 现场性: 工作在某种环境中，并能与环境进行交互自主性: 在不用干