Karmed Bandit Politokarmed强盗波利托.pptVIP

  • 13
  • 0
  • 约小于1千字
  • 约 21页
  • 2017-03-07 发布于上海
  • 举报
Karmed Bandit Politokarmed强盗波利托

K-armed Bandit Livio Torrero,Olivier Morandi, Pierluigi Rolando,Riccardo Giacomelli K-armed Bandit K slot machines stocastiche (Gaussian) Mean reward Standard deviation 2000 actions per apprendere quale sia la slot machine migliore Come fare? K-armed Bandit Strategie Greedy Scelgo strategia migliore stimata con probabilità Scelgo una strategia tra le altre con probabilità uniforme con probabilità Test-1 Mean rewards statici (Gaussian) Varianza=1 Stima del reward: Test-1 Test-1 Test-2b (varianza=0) Test-2a (varianza=10) Test-3 Stima del reward Test-3a (LR=0.9,variance=0) Test-3b (LR=0

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档