高级人工智能第十三章.pptVIP

  1. 1、本文档共107页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
高级人工智能第十三章

* * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * 史忠植 高级人工智能 * 规则发现系统 在规则发现系统中, 学习经常是首先评价系统现有的规则质量, 然后进行修改。Grefenstette 研制了一种规则发现系统RUDI。问题求解级由简化的分类器系统组成。学习级是对知识结构群体进行遗传算法操作, 每一个表示为一组规则表。知识结构的整个行为控制这些结构的复制。 在RUDI中, 信用赋值方法赢利共享规划(Profit-Sharing Plan,简称PSP) 和桶链算法(BBA) 对每个规则提供互补的效用信息。根据期望的外部奖励, PSP-强度对规则效用提供更精确的评估。当问题求解时它被用作冲突消解。与此相反, BBA-强度表示规则之间的动态相关性, 规则点火依次会聚到相似水平。这种测度可以用作一组协作规则的聚类。 * 史忠植 高级人工智能 * 规则发现系统 Grefenstette 提出一种强度修改方案称作嬴利共享规划PSP。在这种方案中问题求解划分成情节, 按所接受的外部奖励区分。如果任何步情节在投标竞争中获胜, 则认为该规则在该情节活动。在情节t, PSP 修改每个活动规则Ri的强度 Si(t) 如下: Si(t + 1) = Si(t) -bSi(t) + bp(t), 其中, p(t) 称作在情节结束时所获得的外部奖励, 即当获得外部奖励,从每个活动规则搜集投标, 每个活动规则给出一部分外部奖励。考虑PSP 对给定规则Ri 的影响, 它按照方程得到: * 史忠植 高级人工智能 * 规则发现系统 其中, t 的范围是在该情节规则 Ri 是活动的, 即Si(t) 基本上外部奖励的权值平均p(t), (1 - b) 作为指数衰减因子。如果 b 足够小,那么 S(t) 具有 p(t) 的平均值。如果外部奖励 p(t)是常数,p*, 那么Si 收敛到一个平衡值 Si*: * 史忠植 高级人工智能 * 规则发现系统 在常数赢利下, PSP 将以下列速率减少误差 Ei(t) = p* - Si(t) 强度每次改变, 以因子b减少当前强度与平衡强度之差。 * 史忠植 高级人工智能 * 规则发现系统 我们看出, 奖励相当是常数情况下, 在PSP下每个规则强度很快收敛到一个平衡强度, 可以预测情节结束时将接收的奖励水平。 PSP的一种可能的限制是它取决于这种前提, 成功外部奖励区分的情节所对应的合适区间, 在这个区间里进行信用赋值。情节的选择非常重要。 * 史忠植 高级人工智能 * 规则发现系统 在桶链算法BBA中, 是基于规则之间单独处理的, 可以避免有关情 节的假设。假设规则 Ri 在tau 步点火, 规则 Rj 在 tau + 1 点火, 那么BBA 按照下面公式修改规则 Ri的强度 Si: 第一个改变意味BBA 在给定的情节修改规则强度多于一次。第二个改变导致PSP与BBA基本的不同。PSP强度预测所期望的情节结束获得的外部奖励是在规则点火, BBA的强度预测所期望的内部奖励是在规则的下一步。 * 史忠植 高级人工智能 * 规则发现系统 RUDI的控制结构 问题求解 BBA/PSP 遗传算法 任务 执行 强度 新规则 信用 奖励 * 史忠植 高级人工智能 * PSP与BBA比较 奖励:1000 0 300 初始状态 结束状态 * 史忠植 高级人工智能 * 不同的强度修改方案 规则 PSP强度 BBA强度 1000 648 299 567 1000 645 4 644 300 300 999 531 300 300 * 史忠植 高级人工智能 * 进化策略 进化策略模仿自然进化原理作为一种求解参数优化问题的方法。最简单的实现方法如下: 定义的问题是寻找n维的实数向量x, 它使函数 (2) 双亲向量的初始群体从每维可行范围内随机选择。 (3) 子孙向量的创建是从每个双亲向量加上零均方差高斯随机变量。 (4) 根据最小误差选择向量为下一代新的双亲。 (5) 向量的标准偏差保持不变, 或者没有可用的计算方法, 那么处理结束。 * 史忠植 高级人工智能 * 进化规划 进化规划(evolutionary programming,又译为进化程序设计)的过程, 可理解为从所有可能的计算机程序形成的空间中, 搜索有高的适应值的计算机程序个体,在进化程序设计中,几百或几千个计算机程序参

文档评论(0)

pengyou2017 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档