- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
维普资讯
生物物理学报 第二十四卷 第三期 二oo八年六月
ACTA BIoPHYSICA SINICA Vo1.24 No.3 Jun.2008
模拟昆虫视觉 .行为抉择的强化学习模型
马 奇, 张立明
(复旦大学信息学院电子工程系,上海 200433)
摘要:视觉信息用于行为挟择的过程是一个极其复杂的脑信息处理过程,昆虫或动物对外界环境的学习是以
价值来控制的,并可影响其行为挟择,研究这一过程对揭示人类 自身脑运行机制有重要意义。文章在郭爱克研究
小组果蝇实验提供的生物依据基础上,提 出了一种模拟果蝇视觉.行为挟择的神经网络模型。该模型引入了价值
和基于价值的强化学习算法,应用于输入视觉图像的强化学习,以此建立果蝇脑内多巴胺和蘑菇体对于抉择判断
的价值体系。模拟的结果表明,该模型可以模拟果蝇视觉信息的学习和行为挟择过程,其结果与生物实验相符,
同时也为机器人视觉信息控制行为挟择的应用提供了基础。
关键词:强化学习;价值系统;神经网络;行为挟择
中图分类号:Q8l1-3
0 引 言 自身大脑的工作原理的认识。在信息科学方面,虽
然强化学习在机器学习中已经有很多应用,但主要
抉择是一种生存能力,是一个极其复杂的脑信 只针对低维的输入信息 (红外、激光和力矩传感
息处理过程。它是指当一个生物体面对一系列不同 器)进行强化学习来实现机器人行为的控制或单摆
的可选方案时,出于愿望或最佳考虑 ,做出相应行 控制[3I4】。视觉图像具有信息量大、状态多等特点,
动,以便获得利益或避免一定的损失。那么脑是如 直接用强化学习和行为抉择的模型无法包含所有的
何进行抉择的,怎样处理风险和不确定性问题以实 可能,同时机器人在大量视频信号下会出现内存溢
现奖励或利益最大化呢?近年来尽管脑与认知科学 出,因而视觉信息和行为之间关系的强化学习模型
在探索人类或高等动物抉择方面 已取得可喜的进 很少。而带有视觉的智能机器人或 自动汽车驾驶都
展,但是抉择的环路机制及神经计算原理仍是一个 需建立视觉信息和行为之间关系的学习模型,从生
挑战性课题。不过科学家普遍认为, “价值”的概 物事实出发研究视觉和行为之间的学习模型,将对
念是人类和动物抉择的基石,是破解抉择 问题 的 信息科学中的智能决策和 自然计算研究具有启发
关键 。 意义。
上海神经所郭爱克院士领导的研究小组对果蝇 本文在参考文献[3,5】等的基础上,提出了一个
基于不同视觉输入时的行为抉择进行了大量的实 视觉和行为关系的神经网络模型,输入为反映外界
验[1],在国际上首先将果蝇作为研究基于 “价值 ” 环境的图像,通过方位和颜色的特征检测,分别输
抉择的动物,开创 了果蝇的两难抉择研究。实验证 入到两个独立的多层 BP神经网络 中进行强化学
明果蝇可 以学会根据复合视觉线索,如模式 (形 习,网络的输出是在所有可能行为下产生的价值,
状 /颜色)的线索来指导它在飞行模拟器上的飞行 两个网络的价值用非线性加权进行融合,融合参数
定向行为,同时发现果蝇在面对矛盾冲突时具有基 的调节可模拟脑的上层对价值控制的程度 ,通过带
于 “经验”的简单抉择能力。进一步的研究[21表明 有遗忘的随机选择得到最终的行为。网络是以各种
该能力由果蝇脑 中的蘑菇体结构和多巴胺系统共同
掌控,是否具有蘑菇体的多巴胺系统回路将呈现不
同抉择曲线 。 收稿 日期:2008.06.10
以上研究具有非常重要的意义,为理解脑的智 基金项 目:国家 自然科学基金项 目 (6057
文档评论(0)