強化学習.pptVIP

  • 16
  • 0
  • 约3.97千字
  • 约 29页
  • 2016-08-17 发布于海南
  • 举报
強化学習

シミュレーション論 Ⅱ 第12回 様々なシミュレーション手法(3) 強化学習 前回のレポート解答(1) 気温とおでんの売り上げが以下の表のようになった。 相関分析をおこない、気温とおでんの売り上げに相関があるかどうか調べよ 相関係数 R = -0.9834 データ数が4組の場合、|R| 0.950 だから5%水準で有意であり、|R| = 0.9834とかなり 1に近いため 気温とおでんの売上には高い負の相関があるといえる 前回のレポート解答(2) 次に回帰直線を求める データ数 n = 4 で、データの組はそれぞれ a, b は以下の式で求められる ただし 前回のレポート解答(3) B~Eを求めると 前回のレポート解答(4) a, b の式に代入して よって回帰直線の式は Y = -1.13X + 21.59 強化学習 強化学習:試行錯誤をくりかえして、よりよい行動方針を獲得する手法 状態と行動をセットにして記述し、うまくいった場合に「報酬」、失敗した場合に「罰」を与えることでよりよい行動を獲得するようになる 教師データが不要なため、未知の環境への応用が可能 ロボットの行動獲得などによく利用される 強化学習のしくみ 強化学習では学習をおこなう「主体」と「環境」がある 主体は環境の状態を観測し、行動を選択する 行

文档评论(0)

1亿VIP精品文档

相关文档