强化学习とは
エージェントアプローチ人工知能 21章 B4 片渕 聡 目次 第21章 強化学習 21章:強化学習目次 強化学習 受動強化学習 能動強化学習 強化学習における一般化 政策の探索法 まとめ 強化学習とは 現在の状態からエージェントが取るべき方策を学習 何を学習するかはエージェントにより異なる -効用に基づくエージェント:効用Uπ(s) -Q学習エージェント:行動-価値関数(Q関数) ?状態sにおいて行動aを起こした際の期待効用 -反射エージェント:方策(政策)π 例題:4×3問題(再掲) 21章:強化学習目次 強化学習 受動強化学習 能動強化学習 強化学習における一般化 政策の探索法 まとめ 受動強化学習 エージェントの政策πが固定の場合における学習 受動強化学習のアプローチ法 -直接的な効用推定法 -適応動的計画法(ADP) -時間的差分学習(TD) 直接的な効用推定法 Bellman方程式(17章)に従った効用の更新 -Uπ(s)=R(s)+γΣT(s,a,s’)Uπ(s’) 適応動的計画法(Adaptive Dynamic Programming:ADP) 観測から遷移モデルTや報酬Rを学習 -その値をBellman方程式に適用 例:(1,3)において「右に進む」を3回実行 -うち2回の実行結果が(2,3)
原创力文档

文档评论(0)