強化学習と関数近似.pptVIP

  • 2
  • 0
  • 约1.14千字
  • 约 11页
  • 2016-08-17 发布于海南
  • 举报
強化学習と関数近似

強化学習と関数近似 強化学習を用いたバックギャモンプレイヤーの生成 TD-Gammon 状態価値関数と行動価値関数 離散型状態価値関数 関数近似による価値関数 バックギャモン ニューラルネットワークによる 勝利確率推定 入力情報 重みの更新 重みの更新 対戦結果 定石の変化(第1手) * * 前回までは 行動価値関数Qを推定 状態 st 行動 at Q(st,at) 時刻tで状態stにいるとき行動atをとる価値 もうひとつの考え方として 状態価値関数Vを推定 時刻tで状態stにいる好ましさ(価値) V(st,at) 本論文では状態価値関数Vを使う 0.1 0.2 … 0.1 0.3 0.0 1.5 1.0 0.5 0.1 状態s 状態価値V 状態s 状態価値V 状態s 状態価値V バックギャモンの一般的な初期状態 赤の駒の動き方 白の駒の動き方 ….. ….. ….. 入力層 中間層(40-80) 出力層 盤面の情報 198 入力 勝利確率の予測値 TD誤差 バックギャモンの各ポイントについて白黒それぞれ4ユニット(入力層ノード)を使う 4(ユニット)×2(白黒)×24(バックギャモンのポイント)=192(ユニット) 例) ある1ポイントに対する白の数について 白なし : 4入力すべて0 1個 : 最初の1ユニットが1 2個 : 最初から2個のユニットが1 3個

文档评论(0)

1亿VIP精品文档

相关文档