强化学习とは.ppt

下载文档 降价啦

3
0
约2.09千字
约 20页
2017-08-12 发布于天津
举报
版权申诉
保障服务

强化学习とは.ppt

1、本文档共20页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

强化学习とは

エージェントアプローチ人工知能　21章 B4　片渕聡目次第２１章　強化学習２１章：強化学習目次強化学習受動強化学習能動強化学習強化学習における一般化政策の探索法まとめ強化学習とは現在の状態からエージェントが取るべき方策を学習何を学習するかはエージェントにより異なる　　－効用に基づくエージェント：効用Uπ(s) 　　－Q学習エージェント：行動-価値関数(Q関数) 　　　　?状態sにおいて行動aを起こした際の期待効用　　－反射エージェント：方策(政策)π 例題：４×３問題（再掲）２１章：強化学習目次強化学習受動強化学習能動強化学習強化学習における一般化政策の探索法まとめ受動強化学習エージェントの政策πが固定の場合における学習受動強化学習のアプローチ法　　－直接的な効用推定法　　－適応動的計画法(ADP) 　　－時間的差分学習(TD) 直接的な効用推定法 Bellman方程式(17章)に従った効用の更新　　－Uπ(s)=R(s)+γΣT(s,a,s’)Uπ(s’) 適応動的計画法(Adaptive Dynamic Programming:ADP) 観測から遷移モデルTや報酬Rを学習　　－その値をBellman方程式に適用例:(1,3)において「右に進む」を３回実行　　　　－うち２回の実行結果が(2,3)の場合　　　　　　T((1,3),Right,(2,3))=2/3 と推定時間的差分学習(Temporal-Difference:TD) Bellman(制約)方程式を使わない効用の更新?近似　　　例:(1,3)?(2,3)の遷移(100%遷移すると仮定) 　　　　?Uπ(1,3)=0.84 Uπ(2,3)=0.92 とすると　　　　　Bellman方程式(γ=1の場合)より　　　　　U’π(1,3)=-0.04+Uπ(2,3)=0.88 となる　　　　これはUπ(1,3)と違うので更新しないとならない　　　　　 Uπ(s)? Uπ(s)+α(R(s)+γUπ(s’)-Uπ(s)) ２１章：強化学習目次強化学習受動強化学習能動強化学習強化学習における一般化政策の探索法まとめ能動強化学習政策πをエージェントが決定しないといけない　　－Uπ(s)=R(s)+γmaxΣT(s,a,s’)Uπ(s’) 　　　　?最適な政策の決定行為-価値関数の学習(Q学習) 行動-価値表現Q(a,s)を使用　　－可能な行動の中で比較を行うことが可能　　　　?Uπ(s’)の値を知る必要が無い　　　　 ?Q(a,s)=R(s)+γΣT(s,a,s’)maxQ(a’,s’) Q関数の更新は時間的差分学習と同様　　　Q(a,s)? Q(a,s)+α(R(s)+γmaxQ(a’,s’)-Q(a,s)) 　　２１章：強化学習目次強化学習受動強化学習能動強化学習強化学習における一般化政策の探索法まとめ強化学習における一般化巨大な状態空間を扱うために近似の必要がある　　－Uθ(s)=θ0+θ1f1(s)+θ2f2(s)+??? 　　　　　θ：パラメータ(重み)(人間が設定) 　　　　　f(s)：ベース関数(人間が設定) 　　　　　　?パラメータθ(方策)の学習例：4×3問題の場合：x座標とy座標　　　　Uθ(x,y)=θ0+θ1x+θ2y パラメータθの更新 θiの更新に誤差関数Ej(s)を利用　　　－Ej(s)=(Uθ(s)-uj(s))2/2 　　　　　　uj(s):状態sにおけるj回の試行までの合計報酬パラメータθiの更新: 　　－θi?θi-α　　 =θi-α(Uθ(s)-uj(s)) ２１章：強化学習目次強化学習受動強化学習能動強化学習強化学習における一般化政策の探索法まとめ政策の探索効率（効用）が改善される間政策を更新し続ける　　－π(s)=maxQθ(a,s) ソフトマックス関数を用いた政策の探索　　－πθ(s,a)=exp(Qθ(a,s))/∑exp(Qθ(a’,s) ２１章：強化学習目次強化学習受動強化学習能動強化学習強化学習における一般化政策の探索法まとめまとめ強化学習：効用やQ関数、政策の学習　　　－ADP法　　　－TD法パラメータθを用いた近似関数の表現政策の探索 * * -0.04 -0.04 -0.04 S -0.04 G -1 -0.04 -0.04 G +1 -0.04 -0.04 -0.04 (報酬) 0.8 0.1 0.1 意図した方向環境：完全観測可能環境全体及び自分の位置を知ることが