- 1
- 0
- 约7.47千字
- 约 10页
- 2026-05-20 发布于江苏
- 举报
一、单项选择题(共10题,每题1分,共10分)
在强化学习中,马尔可夫决策过程(MDP)的核心假设是什么?
A.环境是动态的,但状态转移是随机的
B.未来状态只依赖于当前状态和动作
C.奖励函数是线性的,且独立于状态
D.策略必须依赖于历史状态
答案:B
解析:马尔可夫决策过程的核心假设是马尔可夫性质,即未来状态只依赖于当前状态和动作,与历史无关。选项A错误,状态转移随机但并非核心假设;选项C错误,奖励函数可以是任意非线性形式;选项D错误,策略基于当前状态即可定义。
强化学习中的折扣因子γ的主要作用是什么?
A.增加即时奖励的权重
B.平衡当前和未来奖励,防止无限回报
C.减小策略的探索空间
D.直接优化长期回报的计算
答案:B
解析:折扣因子γ(0≤γ1)用于折扣未来奖励,平衡当前奖励与未来奖励,避免无限回报问题。选项A错误,γ实际减小当前奖励影响;选项C错误,γ与探索无关;选项D错误,γ不直接优化计算,而是调节时间尺度。
Q-learning算法的更新规则中,目标值基于什么计算?
A.当前动作的期望奖励
B.当前策略下的最大Q值
C.贝尔曼方程的直接迭代
D.环境转移的确定性
答案:B
解析:Q-learning使用贝尔曼优化方程,目标值为立即奖励加上折扣后的最大Q值(即max_a’Q(s’,a’))。选项A错误,它涉及未来回报;选项C不准确,贝尔曼方
您可能关注的文档
- 2026年人工智能工程师考试题库(附答案和详细解析)(0430).docx
- 2026年价格鉴证师考试题库(附答案和详细解析)(0513).docx
- 2026年企业数字化战略师考试题库(附答案和详细解析)(0429).docx
- 2026年区块链应用开发工程师考试题库(附答案和详细解析)(0511).docx
- 2026年工业互联网工程师考试题库(附答案和详细解析)(0507).docx
- 2026年思科认证网络专家(CCIE)考试题库(附答案和详细解析)(0512).docx
- 2026年注册环境影响评价工程师考试题库(附答案和详细解析)(0430).docx
- 2026年注册用户体验设计师(UXD)考试题库(附答案和详细解析)(0512).docx
- 2026年注册电气工程师考试题库(附答案和详细解析)(0508).docx
- 2026年注册职业卫生评估师考试题库(附答案和详细解析)(0514).docx
- DB31_T 1551-2025 企业集团安全生产管控基本规范.docx
- DB31_T 1670-2026 供应链质量管理数字化要求.docx
- 重点单位重要部位安全技术防范系统要求 第26部分:民用机场航站楼__DB31_T 329.26-2025-500积分.docx
- DB31 881-2024 涂料、油墨及其类似产品制造工业大气污染物排放标准.docx
- DB32_T 5363-2026 县级(区域)医疗资源集中化运行规范.docx
- DB23_T 3821—2024 黑龙江省超低能耗建筑用外门窗应用技术规程.docx
- DB31 T 838-2026,草坪主要害虫预测与防治技术规范.docx
- DB23_T 3813—2024 公路智能自助收费系统技术规范.docx
- DB31_T 1496-2024 火力发电企业碳管理要求.docx
- DB31_T 1586-2025 未成年人保护工作站建设和服务规范.docx
原创力文档

文档评论(0)