logo

您所在位置网站首页 > 海量文档  > 计算机 > 人工智能

人工智能与信息社会课件:605价值判断:Q函数.pdf 9页

本文档一共被下载: ,您可全文免费在线阅读后下载本文档。

  • 支付并下载
  • 收藏该文档
  • 百度一下本文档
  • 修改文档简介
全屏预览

下载提示

1.本站不保证该用户上传的文档完整性,不预览、不比对内容而直接下载产生的反悔问题本站不予受理。
2.该文档所得收入(下载+内容+预览三)归上传者、原创者。
3.登录后可充值,立即自动返金币,充值渠道很便利
特别说明: 下载前务必先预览,自己验证一下是不是你要下载的文档。
  • 内容提供方 woxiangang(上传创作收益人)
  • 发布时间:2020-08-13
  • 需要金币100(10金币=人民币1元)
  • 浏览人气
  • 下载次数
  • 收藏次数
  • 文件大小:1009.43 KB
下载过该文档的会员
你可能关注的文档:
人工智能与信息社会 基于神经网络的智能系统II:价值判断Q函数 陈斌北京大学gischen@pku.edu.cn 策略 〉 从状态集 (所有可能出现的状态)到 动作集 (所有可能采取的动作)的一 个对应关系。 北京大学地球与空间科学学院/ 陈斌/2018 目标:求得最佳策略 〉 与手写数字识别不同,在强化学习中 我们不关心把当前的状态分为什么类 型,而是关心它能否执行最佳动作。 监督学习 强化学习 北京大学地球与空间科学学院/ 陈斌/2018 判断状态 〉 状态值函数V 只和状态相关,用于对某个局面状态进行估 值。 〉 状态动作函数Q 和状态以及在该状态下采取的动作相关,用 于对某个局面状态下采取某个动作进行估值。 北京大学地球与空间科学学院/ 陈斌/2018 Q-Learning 〉 强化学习中一种常用算法。 〉 基于状态动作函数Q ,如果知道了某 一状态下每个动作的估值,那么就可 以选择估值最好的一个动作去执行了。 北京大学地球与空间科学学院/ 陈斌/2018 简单的Q函数表(Q-Table) 〉 Q函数表中行表示状态,列表示动作,表中 的值表示特定状态下执行某动作的评估值Q。 〉 主体通过不断更新并查找该表,找到当前状 态回报最高的动作执行。 状态 Q值 动作 Q函数表 北京大学地球与空间科学学院/ 陈斌/2018 简单的Q函数表(Q-Table) 〉 示例 某个策略的Q函数表 状态\动作 上 下 左 右 开始点 0 20 0 10 一小块奶酪 0 -100 1 2 空白 0 100 10 0 两小块奶酪 5 0 0 -100 毒药 0 0 0 0 一堆奶酪(终点) 0 0 0 0 北京大学地球与空间科学学院/ 陈斌/2018 基于神经网络计算Q函数 〉 对于复杂的状态,无法用表格表示, 可使用神经网络对Q函数进行建模, 其输入为状态,输出为各个动作的评 估值。还是选取最高的动作执行。 Q值(动作1) 状态 Q值(动作2 ) Q值(动作3) Q神经网络 北京大学地球与空间科学学院/ 陈斌/2018 总结 〉 Q-Learning算法通过学习获得一个 状态动作函数 (Q函数) 〉 不直接决定主体该采取什么决策,而 是提供一个估值参考。 〉 如果Q函数较优,可以直接取最大价 值来决定动作。 北京大学地球与空间科学学院/ 陈斌/2018

发表评论

请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。
用户名: 验证码: 点击我更换图片

“原创力文档”前称为“文档投稿赚钱网”,本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有【成交的100%(原创)】。原创力文档是网络服务平台方,若您的权利被侵害,侵权客服QQ:3005833200 电话:19940600175 欢迎举报,上传者QQ群:784321556