机器学习方法与实践 习题及答案 K摇臂赌博机.docx

机器学习方法与实践 习题及答案 K摇臂赌博机.docx

【单选题】假设你面临一个具有5个摇臂的k-摇臂赌博机问题。每个摇臂的奖励概率未知且不同。为了最大化总奖励,你决定采用UCB策略进行摇臂选择。在这种策略下,每次选择时都会考虑摇臂的平均奖励和不确定性(即置信区间)。以下哪个陈述最准确地描述了UCB策略的特点?()

A.UCB策略主要侧重于探索,因为它倾向于选择那些最不确定的摇臂

B.UCB策略在选择摇臂时,总是偏好那些迄今为止表现最好的摇臂

C.UCB策略通过考虑每个摇臂的平均奖励和不确定性来平衡探索和利用

D.UCB策略在初始阶段倾向于利用,随着时间的推移逐渐转向探索

答案:C

难易程度:易

作答时间(秒):10

答案解析:UCB策略结合

文档评论(0)

1亿VIP精品文档

相关文档