人工智能章制定简单决策.pptVIP

下载本文档

9
0
约4.14千字
约 34页
2016-03-29 发布于湖北
举报
版权申诉

人工智能章制定简单决策.ppt

1、本文档共34页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

人工智能章制定简单决策.ppt

在不确定环境下结合信念与愿望 Result(a):表示动作a 被执行的输出结果。 P（Result(a)=s/a,e）表示给定状态e,输出s的概率。效用函数U（s）是一个数值，表达对某个状态的满意度。期望效用函数是输出结果的加权平均效用值，其中权值是输出结果的发生概率最大化期望效用原则认为，理性的智能体Agent应该能选择能够最大化Agent期望效用行为：效用理论基础直观上，最大效用原则（MEU）看起来是制定决策的合理方法，但不能说它明显是唯一的理性方法。毕竟，为什么应该最大化平均效用？为什么不最大化所以可能效用的加权立方和？或者为什么不尝试最少化最坏的可能损失？为什么效用函数一定存在？效用函数效用是从一个抽奖映射到实数的函数。所有理性的Agent必须遵守关于效用的公理，也可以说一个Agent可以拥有它喜欢的任何偏好。例如：一个Agent可能偏好在其银行账户上的存款的美元数位质数，这种情况下，如果它有16美元，它将送出3美元，这肯定是不正常的，但不能说它不理性。一个Agent 可能偏好一辆有凹陷的1973福特汽车甚于一辆崭新的奔驰汽车。效用尺度效用没有绝对的尺度，但建立某种尺度，用这个尺度记录和比较任何特定问题的效用是有帮助的。我们固定“最好的可能奖励”的效用为和“最坏的可能灾难”的效用为归一化效用使其具有和的尺度。如何根据效用尺度来确定所有抽奖的效用给定一个和之间的效用尺度，通过让Agent在S和标准抽奖之间选择，我们可以评估任何特定奖励S 的效用。通过调节概率p直到Agent对S和这个标准抽奖没有偏向性。假设在归一化效用下，S的效用是p，一旦每个奖励的效用确定了，涉及这些奖励的所有抽奖的效用也确定了。 QALY（质量调整寿命年）效用的另一个尺度QALY，等价于身体健康不衰减的一年。有残疾的病人愿意恢复到完全健康而愿意缩短预期寿命。例如：患肾病的病人对“在透析机上生活两年”于“完全健康地生活一年”之间没有偏向性。金钱的效用经济学位效用度量提供了一个明显的候选：金钱。假设你在一个电视游戏节目中击败了其余竞争者。主持人现在给你一个选择：你可以拿走1000000美元的奖金，或者你可以扔硬币赌一次，如果硬币正面朝上，你的结局一无所获，但是如果硬币正面朝下，你最终得到2500000美元。如果你像大多数人一样，你会拒绝赌博而拿走这一百万。你这是不理性的吗？假设硬币是公正的，该赌博的期望货币价值（EMV）是（0.5（￡0）+0.5（￡2500000））=￡1250000，这比原始奖金一百万多，但并不意味着接受这一赌博是一个更好的决策，假设我们用Sn表示拥有总共n美元的财富状态，而你当前的财富是K美元，那么，接受和拒绝赌博的两个行动的期望效用是：为了决定该做什么，我们需要改结果状态分配效用。假设你给当前的财富状况分配一个效用值5，给定状态分配效用值9，给状态分配效用值8.那么，理性的行动是拒绝赌博，但可能一个千万富翁可能接受此次赌博。曲线的正值部分的斜率是递减的，那么对于任意抽奖L，“面对这次抽奖”的效用少于“把这次抽奖的期望货币价值当做确定的东西给你”的效用：有此形状的智能体是规避风险的：它们偏好比赌博的期望货币价值小的确定收益。另一方面，在大多数额负财产的“绝望”区间，Agent的行为追求风险。一个Agent能接收的代替某次抽奖的价值被称为这次抽奖的确定性等价物。研究表明大部分人会接受用40美元代替一次有一半的机会赢得100美元的赌博。期望效用与后决策失望选择最佳行为a的理性方式是最大化期望效用：实际的期望效用：真实期望效用的估计值假设这个估计值是无偏估计，也就是说误差的期望值是0. 乐观者报应人类评价和非理性决策理论是一种规划性理论：它描述了一个理性的Agent应该如何行动。另一方面，一种描述性理论，描述了实际的Agent——例如人类——真正会如何行动。两者是不一致的。实际表明人类“有先兆地非理性”。最有名的问题是Allais悖论。人们在两次抽奖A和B之间选择，然后在C和D之间选择，它们的奖励是： A: 80%的机会获得400美元 B：100%的机会获得300美元 C:20%的机会获得4000美元 D:25%的机会获得3000美元确定性效应 Ellsberg悖论，这里，奖励是固定的，但概率是无限定的。你的工资降依赖