网站大量收购独家精品文档,联系QQ:2885784924

6.行为智能完整版.ppt

  1. 1、本文档共45页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
AI:Nouvelle AI * 经典示例- 房间里的机器人 向上的行为: 80% 移动到了上方, 10% 移动到了左方, 10% 移动到了右方 在[4,3]处奖励为+1, 在[4,2]处的奖励为-1, 其他步为0 Russell and Norvig, Artificial Intelligence: A Modern Approach, 2ed edition,2006 AI:Nouvelle AI * 经典示例– 杆平衡 在一个移动的平板车上面让一个长杆平衡直立 Russell and Norvig, Artificial Intelligence: A Modern Approach, 2ed edition,2006 AI:Nouvelle AI * 不需要模型的方法: Q-学习算法 学习V ?* (简记为V*) 对于任何状态s,执行向前搜索以选出最好的行动 如果智能体已知下面函数将会得到很好的效果 fS : 状态 ? 行为 ? 状态 fR : 状态 ? 行为 ? R 如果fS 和fR 未知, 将不能通过这种方式选择下一步行为 AI:Nouvelle AI * Q-值 定义一个与 V*相似的新的函数 如果智能体对Q进行学习,将能够在fS 和 fR 未知的情况下选择最优行动 AI:Nouvelle AI * r(状态, 行为) 立即收益值 Q(状态, 行为) 值 V*(状态) 值 100 0 0 100 G 0 0 0 0 0 0 0 0 0 90 81 100 G 0 81 72 90 81 81 72 90 81 100 G 90 100 0 81 90 100 Q-值的计算 使用折扣收益,折扣因子为0.9 81=0+0.9*90 AI:Nouvelle AI * 学习Q-值 注意: Q 和 V* 密切相关 将Q写成递归形式: 使用Q-值 问题: 如何学习? 问题: 如何选择最优行为? AI:Nouvelle AI * Q-学习步骤 对于每一个s, a 初始化Q-值 观察到当前状态s 重复以下步骤 根据当前Q-函数选择动作 获得奖励r 观察到新的状态 s’ 令 令s = s’ AI:Nouvelle AI * Q-学习举例: 汉诺塔 /kardi/tutorial/ReinforcementLearning/Tower-of-Hanoi.htm AI:Nouvelle AI * 带奖励值的状态图 AI:Nouvelle AI * R 矩阵 初始Q Q 矩阵 最终 Q Q 矩阵更新 AI:Nouvelle AI * 红箭头指示的是从起始节点到目标节点的最优路径 实际上,图中的Q值可以用于从图中任何一个起始节点(不只是状态1)通过最短路径走到目标节点 状态图里的解决路径 AI:Nouvelle AI * Q-学习演示: 路径学习器 AI:Nouvelle AI * 总结 行为智能 没有表示和推理的智能 Situated AI 智能体 弱概念和强概念 结构类型有慎思型 (BDI模型), 反应型 (包容结构,网络结构), and 混合型 (PRS, 图灵机, InteRRaP) AI:Nouvelle AI * 总结 使用强化学习得到智能体 不同于监督学习和非监督学习 从奖励和惩罚中学习 试错交互 Q-学习 * * AI:Nouvelle AI 行为智能 第 6 章 AI:Nouvelle AI * 大纲 智能体 - 结构 ? 没有表示和推理的智能 - 学习 强化学习 - Q-学习 AI:Nouvelle AI * PartⅠ: 智能体 AI:Nouvelle AI * 机器人世界杯2008 决赛 中国,苏州 到2050年,组建一个可以取胜人类足球冠军队的全自主机器人队伍。 - AI:Nouvelle AI * 远程智能体实验(RAX) Deep Space 1 mission to validate technologies AI software in primary command of spacecraft Tests in May 1999 NANA, USa AI:Nouvelle AI * 1.1 智能体定义 Russell and Norvig: “能够通过传感器感知环境并根据环境做出行动的任何系统” AI:Nouvelle AI * 智能体的弱概念 五个主要特点: 现场性: 工作在某种环境中,并能与环境进行交互 自主性: 在不用干

文档评论(0)

191****1763 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档