强化学习とは.ppt

强化学习とは

エージェントアプローチ 人工知能 21章 B4 片渕 聡 目次 第21章 強化学習 21章:強化学習 目次 強化学習 受動強化学習 能動強化学習 強化学習における一般化 政策の探索法 まとめ 強化学習とは 現在の状態からエージェントが取るべき方策を学習 何を学習するかはエージェントにより異なる   -効用に基づくエージェント:効用Uπ(s)   -Q学習エージェント:行動-価値関数(Q関数)     ?状態sにおいて行動aを起こした際の期待効用   -反射エージェント:方策(政策)π 例題:4×3問題(再掲) 21章:強化学習 目次 強化学習 受動強化学習 能動強化学習 強化学習における一般化 政策の探索法 まとめ 受動強化学習 エージェントの政策πが固定の場合における学習 受動強化学習のアプローチ法   -直接的な効用推定法   -適応動的計画法(ADP)   -時間的差分学習(TD) 直接的な効用推定法 Bellman方程式(17章)に従った効用の更新   -Uπ(s)=R(s)+γΣT(s,a,s’)Uπ(s’) 適応動的計画法 (Adaptive Dynamic Programming:ADP) 観測から遷移モデルTや報酬Rを学習   -その値をBellman方程式に適用 例:(1,3)において「右に進む」を3回実行     -うち2回の実行結果が(2,3)

文档评论(0)

1亿VIP精品文档

相关文档