拟人智能的实现下.doc

  1. 1、本文档共13页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
拟人智能的实现下.doc

拟人智能的实现之智能机器人的学习 程洪文 (第三人民医院,湖北省 钟祥市431900) 摘 要:本文讨论了智能机器人的1、奖惩学习的基本机理。2、奖惩系统的学习发展阶段及规律。3、奖惩系统与认知对思想行为的影响,包括预期计算中枢(用yjz表示)与奖惩预期刺激,是如何影响思想行为的,及认知对注意力的影响等问题。4、奖惩系统是如何影响动作行为的形成,包括中介奖惩刺激对动作行为形成的影响及动作行为形成的理想的基本模型等。5、想像,推理等多个问题。 智能软件先通过奖惩学习使正确的兴奋得到选择,然后使被选择的兴奋习惯化(动力的分配、主注意目的的确定等能力都需要先奖惩学习,然后再习惯化)。所谓兴奋习惯化是指由于多次兴奋、记忆,使某一记忆柱群对另一记忆柱群的的兴奋能力足够强,即使在分配极少的注意力的情况下它的兴奋仍能使另一记忆柱群兴奋(习惯化是易化兴奋状态下的习惯化)。智能软件实现高级功能的能力,需要一群习惯性兴奋的获得。状态性兴奋与习惯性兴奋是智能软件高级功能的基石。 智能机器人学习发展的核心是奖惩系统的发展。为了便于我们影响智能机器人的学习,我们应设置智能机器人的奖惩系统尽量与人的相似。应:1、为智能软件控制的智能机器人设置初始且合理的奖惩系统,让它在环境影响下自我学习发展。2、设置适当的智能软件学习环境、道德、文化、规章制度,使智能软件的奖惩系统的发展在人的可控制下,从而使形成的智能软件后天的奖惩系统,对人有利。 结合人的学习发展,我想智能机器人的学习可大致分为三个阶段,而第一阶段最为重要(这三个阶段是相互交错重叠的)。奖惩系统的学习是学习的核心,从先天奖惩与中介奖惩,到一些后天奖惩(是与人或其它智能机器人交互的能力的核心基础,能使其更快获得它人的经验),到媒体及书本知识对其奖惩预期的影响,到工作。 一、 才制造出的智能机器人存在先天和中介奖惩刺激,在这些奖惩刺激的影响下形成各种相应的奖惩预期。 会学习获得一些新的奖惩预期,如对中介奖惩刺激的预期等。 归因能力、探索及好奇心、模仿能力及欲望的获得与发展。 有了简单的奖惩预期就会有简单的目的、简单的注意力分配,会产生基本行为的学习,最终使行为习惯化。如视觉的注意及其它一些基本动作的学习等。 通过奖惩学习会形成基本与环境相适应的简单的注意习惯,注意又影响了记忆内容。 形成与环境相适应的回忆习惯。 由于推理设计到一些规则的记忆和比较高级的注意力的分配,开始时智能机器人应不具有推理的能力,只能进行一些简单的推理的记忆。 早期更多的是普通性回忆及想像性回忆,状态性回忆可能需要奖惩系统发展到一定程度才会出现。 认识对行为的影响处于发展初期。   通过奖惩学习会进一步获得一些新的奖惩预期刺激,如监护人的面容、面部表情、一些语言,在这些基础上会逐渐获得另一些能力。(新的奖惩预期刺激的形成往往与一些能力的发展相互促进,如监护人的面部表情要成为奖惩预期刺激,首先需要具有视觉注意的能力。) 行为的复杂。 语言能力。 模仿习惯、欲望、能力的发展,归因及探索、好奇心的发展。 进一步完善的注意习惯。 逐步发展完善的想像性回忆、状态性回忆。 对简单推理的记忆、应用。 认识对行为的影响形成并不断完善,逐步形成现实判断体系。   这些发展为进一步的学习提供了基础。在交流与实践中形成对某些媒体内容的奖惩预期(不同媒体可有不同的标志对象被注意,作为奖惩预期刺激) 二、 在这个阶段获得知识的同时,奖惩系统、能力也不断发展完善。为下一步的工作提供角色培养。 三、 为社会创造价值,也是能力不断发展的阶段。 1 奖惩学习的机理: 奖惩学习的机制如下(具体的例子见我的《奖惩中枢与学习》那篇文章): 智能软件在实现一目的时,如果一群记忆柱群(用A表示)兴奋后目的能完成,而另一群记忆柱群(用B表示)兴奋后目的不能完成,则在多次完成与不能完成目的后,在这一目的状态下A便与正动力中枢建立了一定强度的记忆联系(同时A与相关记忆柱群的兴奋性记忆联系也得到强化),而B与负动力中枢建立了一定强度的记忆联系。那么再要实现这一目的时通过回忆A、B与动力中枢的关系,而使A通过状态性中枢被易化,B通过状态性中枢被抑制(状态性中枢可通过亚主注意目的实现这种功能),A便被选择兴奋。即使在开始学习前,在实现这一目的的过程中A被兴奋和兴奋相应的记忆柱群的能力远低于B,但通过不断的学习,在实现这一目的的过程中A被兴奋和兴奋相应的记忆柱群的能力便会逐渐超过B,并最终远远超过,则当再解决那一问题或与之相似的问题时,即使没有动力中枢与状态性中枢的作用,兴奋也会是A而不是B。经过多次的完成这一目的,当A在完成这一目的时被兴奋和兴奋相应的记忆柱群的能力足够强时,在完成这一目的时,A的被兴奋便会成为习惯性兴奋。这便是智能软件奖惩学习的基本机理。 同理,智能软件在实现一目的的

文档评论(0)

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档