强化学习とは.ppt

  1. 1、本文档共20页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
强化学习とは

エージェントアプローチ 人工知能 21章 B4 片渕 聡 目次 第21章 強化学習 21章:強化学習 目次 強化学習 受動強化学習 能動強化学習 強化学習における一般化 政策の探索法 まとめ 強化学習とは 現在の状態からエージェントが取るべき方策を学習 何を学習するかはエージェントにより異なる   -効用に基づくエージェント:効用Uπ(s)   -Q学習エージェント:行動-価値関数(Q関数)     ?状態sにおいて行動aを起こした際の期待効用   -反射エージェント:方策(政策)π 例題:4×3問題(再掲) 21章:強化学習 目次 強化学習 受動強化学習 能動強化学習 強化学習における一般化 政策の探索法 まとめ 受動強化学習 エージェントの政策πが固定の場合における学習 受動強化学習のアプローチ法   -直接的な効用推定法   -適応動的計画法(ADP)   -時間的差分学習(TD) 直接的な効用推定法 Bellman方程式(17章)に従った効用の更新   -Uπ(s)=R(s)+γΣT(s,a,s’)Uπ(s’) 適応動的計画法 (Adaptive Dynamic Programming:ADP) 観測から遷移モデルTや報酬Rを学習   -その値をBellman方程式に適用 例:(1,3)において「右に進む」を3回実行     -うち2回の実行結果が(2,3)の場合       T((1,3),Right,(2,3))=2/3 と推定 時間的差分学習 (Temporal-Difference:TD) Bellman(制約)方程式を使わない効用の更新?近似    例:(1,3)?(2,3)の遷移(100%遷移すると仮定)     ?Uπ(1,3)=0.84 Uπ(2,3)=0.92 とすると      Bellman方程式(γ=1の場合)より       U’π(1,3)=-0.04+Uπ(2,3)=0.88 となる     これはUπ(1,3)と違うので更新しないとならない       Uπ(s)? Uπ(s)+α(R(s)+γUπ(s’)-Uπ(s)) 21章:強化学習 目次 強化学習 受動強化学習 能動強化学習 強化学習における一般化 政策の探索法 まとめ 能動強化学習 政策πをエージェントが決定しないといけない   -Uπ(s)=R(s)+γmaxΣT(s,a,s’)Uπ(s’)     ?最適な政策の決定 行為-価値関数の学習(Q学習) 行動-価値表現Q(a,s)を使用   -可能な行動の中で比較を行うことが可能     ?Uπ(s’)の値を知る必要が無い      ?Q(a,s)=R(s)+γΣT(s,a,s’)maxQ(a’,s’) Q関数の更新は時間的差分学習と同様    Q(a,s)? Q(a,s)+α(R(s)+γmaxQ(a’,s’)-Q(a,s))    21章:強化学習 目次 強化学習 受動強化学習 能動強化学習 強化学習における一般化 政策の探索法 まとめ 強化学習における一般化 巨大な状態空間を扱うために近似の必要がある   -Uθ(s)=θ0+θ1f1(s)+θ2f2(s)+???      θ:パラメータ(重み)(人間が設定)      f(s):ベース関数(人間が設定)       ?パラメータθ(方策)の学習 例:4×3問題の場合:x座標とy座標     Uθ(x,y)=θ0+θ1x+θ2y パラメータθの更新 θiの更新に誤差関数Ej(s)を利用    -Ej(s)=(Uθ(s)-uj(s))2/2       uj(s):状態sにおけるj回の試行までの合計報酬 パラメータθiの更新:   -θi?θi-α   =θi-α(Uθ(s)-uj(s)) 21章:強化学習 目次 強化学習 受動強化学習 能動強化学習 強化学習における一般化 政策の探索法 まとめ 政策の探索 効率(効用)が改善される間政策を更新し続ける   -π(s)=maxQθ(a,s) ソフトマックス関数を用いた政策の探索   -πθ(s,a)=exp(Qθ(a,s))/∑exp(Qθ(a’,s) 21章:強化学習 目次 強化学習 受動強化学習 能動強化学習 強化学習における一般化 政策の探索法 まとめ まとめ 強化学習:効用やQ関数、政策の学習    -ADP法    -TD法 パラメータθを用いた近似関数の表現 政策の探索 * * -0.04 -0.04 -0.04 S -0.04 G -1 -0.04 -0.04 G +1 -0.04 -0.04 -0.04 (報酬) 0.8 0.1 0.1 意図した方向 環境:完全観測可能 環境全体及び自分の位置を知ることが

文档评论(0)

magui + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:8140007116000003

1亿VIP精品文档

相关文档