强化学习过程中认知控制的神经机制.pdfVIP

下载本文档

73
0
约8.14万字
约 61页
2020-11-17 发布于江苏
举报
版权申诉

强化学习过程中认知控制的神经机制.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

摘要摘要强化学习是一种使学习者经过强化物的强化而使得学习率不断提高，最终习得学习规律的一种学习模式。认知控制是强化学习过程中习得学习规律必不可少的重要因素，只有通过认知控制进行合理地计划，不断指导行为，进行行为调整和行为监控才能更好地达到预期目标。其中有效的行为监控包括内部监控/错误发现和外部监控/外部反馈。但是，在强化学习中内部监控和动态学习表现很少被研究者们关注。在本研究领域仍然存在较大的争论：强化学习依赖于哪种性质的外部强化物以及个体的行为调整策略是怎样的？概率选择任务和二阶决策任务是强化学习研究中常用的实验范式。概率选择任务包括练习和测试两个阶段的任务，通过练习阶段习得的规律进行测试，可以考察个体在学习过程中的内部监控与外部反馈之间的关系，并且可以进一步考察个体学习在哪个阶段是依赖于外部强化物的以及依赖于哪种性质的外部强化物。二阶决策任务由两个阶段构成，主要考察前一个试次的反馈结果和转换类型对下个试次第一阶段被试选择的影响，可以较为直接的考察个体的行为策略模式以及认知控制能力在学习过程中的表现。二阶决策任务的研究结果多用于验证强化学习的双模型理论，即目标导向（model-based）模型和习惯化（model-free）模型。目标导向模型是根据环境结构和有机体当前的目标对接下来的行为进行推理预测，以使行为更加符合目标需要，是一种灵活，需要认知控制的系统。习惯化模型是指学习行为依据之前受到奖励过的经验，是一种更加经济(认知资源消耗较少)，不灵活(不能对环境变换做出及时的反应)，自动化的系统。二阶决策任务相对于概率选择任务更可以考察在更为复杂的环境下个体在进行学习或者行为决策时如何进行认知资源的使用和分配。因此，本研究基于概率选择任务和二阶决策任务对强化学习中认知控制的神经机制进行探索。实验一采用改编后的概率选择范式来检验内部监控和外部反馈的表现模式以及内部监控和外部反馈在动态的强化学习过程中的关系。错误相关负波，反馈相关负波和P300 这三种事件相关电位成分可以被用于内部监控，外部反馈和行为调整的指标。研究结果发现：在早期学习阶段趋向学习者和回避学习者有更大的反馈相关负波效应和较小的错误相关负波效应并且负反馈显著大于正反馈，但 I 摘要是在晚期的学习阶段有较大的错误相关负波效应和较小的反馈相关负波效应。另外，反馈相关负波和P300 在最后阶段比前三个阶段的波幅显著减小，并且错误相关负波的波幅显著增大。上述的结果表明错误相关负波和反馈相关负波存在权衡关系。行为调整主要基于早期学习阶段的负反馈。另外，被试在学习的最后阶段成功的掌握了学习规律。实验二采用了二阶决策任务考察个体在各个阶段中的行为模式，对行为数据采用 logistic 回归分析方法以确定各个阶段的行为模型。对反馈阶段选取两个时间窗口进行分析，一个是较早期的时间窗口260-380ms，即事件相关成分FRN，另一晚期成分为 N460-620。研究结果发现，在四个学习阶段中仅在第二个阶段表现为目标导向模型，第三阶段既不是目标导向模型也不是习惯化模型。第一阶段和第三阶段都为习惯化模型。事件相关电位的结果发现，FRN 成分仅有反馈效价主效应显著并且负反馈波幅明显比正反馈波幅更负，阶段的主效应显著，随着阶段的向后推移FRN 波幅逐渐增大。而较为晚期的N460-620 成分不但有显著的反馈效价和阶段的主效应外还出现了反馈效价与阶段的二阶交互作用，正反馈波幅在block2，block4 阶段的幅值明显减小；以及转换类型，反馈效价与阶段的显著的三阶交互作用，较少转换类型中的负反馈在block3 阶段幅值显著减少。这说明，对于较为复杂的实验任务中个体信息加工的时间会加长。基于以上的实验结果，本研究得出以下结论：（1）内部监控与外部反馈之间存在权衡的关系。（2）外部反馈在学习的早期阶段起作用，行为调整主要基于早期反馈的负反馈。（3）在学习过程中，习惯化模型和目标导向模型在学习的各个阶段作用不同，学习的最初阶段是以习惯化模型起作用，认知控制能力较弱，学习的后期目标导向模型会参与其中，使个体的行为更加符合环境需要，认知控制能力增强。（4）对于较为复