- 1、本文档共34页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
人工智能章制定简单决策.ppt
在不确定环境下结合信念与愿望 Result(a):表示动作a 被执行的输出结果。 P(Result(a)=s/a,e)表示给定状态e,输出s的概率。 效用函数U(s)是一个数值,表达对某个状态的满意度。 期望效用函数 是输出结果的加权平均效用值,其中权值是输出结果的发生概率 最大化期望效用原则认为,理性的智能体Agent应该能选择能够最大化Agent期望效用行为: 效用理论基础 直观上,最大效用原则(MEU)看起来是制定决策的合理方法,但不能说它明显是唯一的理性方法。毕竟,为什么应该最大化平均效用?为什么不最大化所以可能效用的加权立方和?或者为什么不尝试最少化最坏的可能损失?为什么效用函数一定存在? 效用函数 效用是从一个抽奖映射到实数的函数。 所有理性的Agent必须遵守关于效用的公理, 也可以说一个Agent可以拥有它喜欢的任何偏好。 例如:一个Agent可能偏好在其银行账户上的存款的美元数位质数,这种情况下,如果它有16美元,它将送出3美元,这肯定是不正常的,但不能说它不理性。 一个Agent 可能偏好一辆有凹陷的1973福特汽车甚于一辆崭新的奔驰汽车。 效用尺度 效用没有绝对的尺度,但建立某种尺度,用这个尺度记录和比较任何特定问题的效用是有帮助的。 我们固定“最好的可能奖励”的效用为 和“最坏的可能灾难”的效用为 归一化效用使其具有 和 的尺度。 如何根据效用尺度来确定所有抽奖的效用 给定一个 和 之间的效用尺度,通过让Agent在S和标准抽奖 之间选择,我们可以评估任何特定奖励S 的效用。 通过调节概率p直到Agent对S和这个标准抽奖没有偏向性。假设在归一化效用下,S的效用是p,一旦每个奖励的效用确定了,涉及这些奖励的所有抽奖的效用也确定了。 QALY(质量调整寿命年) 效用的另一个尺度QALY,等价于身体健康不衰减的一年。 有残疾的病人愿意恢复到完全健康而愿意缩短预期寿命。 例如:患肾病的病人对“在透析机上生活两年”于“完全健康地生活一年”之间没有偏向性。 金钱的效用 经济学位效用度量提供了一个明显的候选:金钱。 假设你在一个电视游戏节目中击败了其余竞争者。主持人现在给你一个选择:你可以拿走1000000美元的奖金,或者你可以扔硬币赌一次,如果硬币正面朝上,你的结局一无所获,但是如果硬币正面朝下,你最终得到2500000美元。 如果你像大多数人一样,你会拒绝赌博而拿走这一百万。你这是不理性的吗? 假设硬币是公正的,该赌博的期望货币价值(EMV)是(0.5(£0)+0.5(£2500000))=£1250000,这比原始奖金一百万多,但并不意味着接受这一赌博是一个更好的决策,假设我们用Sn表示拥有总共n美元的财富状态,而你当前的财富是K美元,那么,接受和拒绝赌博的两个行动的期望效用是: 为了决定该做什么,我们需要改结果状态分配效用。假设你给当前的财富状况分配一个效用值5,给定状态 分配效用值9,给状态 分配效用值8.那么,理性的行动是拒绝赌博,但可能一个千万富翁可能接受此次赌博。 曲线的正值部分的斜率是递减的,那么对于任意抽奖L,“面对这次抽奖”的效用少于“把这次抽奖的期望货币价值当做确定的东西给你”的效用: 有此形状的智能体是规避风险的:它们偏好比赌博的期望货币价值小的确定收益。 另一方面,在大多数额负财产的“绝望”区间,Agent的行为追求风险。 一个Agent能接收的代替某次抽奖的价值被称为这次抽奖的确定性等价物。 研究表明大部分人会接受用40美元代替一次有一半的机会赢得100美元的赌博。 期望效用与后决策失望 选择最佳行为a的理性方式是最大化期望效用: 实际的期望效用:真实期望效用的估计值 假设这个估计值是无偏估计,也就是说误差的期望值 是0. 乐观者报应 人类评价和非理性 决策理论是一种规划性理论:它描述了一个理性的Agent应该如何行动。另一方面,一种描述性理论,描述了实际的Agent——例如人类——真正会如何行动。 两者是不一致的。实际表明人类“有先兆地非理性”。 最有名的问题是Allais悖论。人们在两次抽奖A和B之间选择,然后在C和D之间选择,它们的奖励是: A: 80%的机会获得400美元 B:100%的机会获得300美元 C:20%的机会获得4000美元 D:25%的机会获得3000美元 确定性效应 Ellsberg悖论,这里,奖励是固定的,但概率是无限定的。你的工资降依赖
文档评论(0)