在不确定环境下结合信念与愿望 Result(a):表示动作a 被执行的输出结果。 P(Result(a)=s/a,e)表示给定状态e,输出s的概率。 效用函数U(s)是一个数值,表达对某个状态的满意度。 期望效用函数 是输出结果的加权平均效用值,其中权值是输出结果的发生概率 最大化期望效用原则认为,理性的智能体Agent应该能选择能够最大化Agent期望效用行为: 效用理论基础 直观上,最大效用原则(MEU)看起来是制定决策的合理方法,但不能说它明显是唯一的理性方法。毕竟,为什么应该最大化平均效用?为什么不最大化所以可能效用的加权立方和?或者为什么不尝试最少化最坏的可能损失?为什么效用函数一定存在? 效用函数 效用是从一个抽奖映射到实数的函数。 所有理性的Agent必须遵守关于效用的公理, 也可以说一个Agent可以拥有它喜欢的任何偏好。 例如:一个Agent可能偏好在其银行账户上的存款的美元数位质数,这种情况下,如果它有16美元,它将送出3美元,这肯定是不正常的,但不能说它不理性。 一个Agent 可能偏好一辆有凹陷的1973福特汽车甚于一辆崭新的奔驰汽车。 效用尺度 效用没有绝对的尺度,但建立某种尺度,用这个尺度记录和比较任何特定问题的效用是有帮助的。 我们固定“最好的可能奖励”的效用为 和“最坏的可能灾难”的效用为 归一化效用使其具有 和 的尺度。 如何根据效用尺度来确定所有抽奖的效用 给定一个 和 之间的效用尺度,通过让Agent在S和标准抽奖 之间选择,我们可以评估任何特定奖励S 的效用。 通过调节概率p直到Agent对S和这个标准抽奖没有偏向性。假设在归一化效用下,S的效用是p,一旦每个奖励的效用确定了,涉及这些奖励的所有抽奖的效用也确定了。 QALY(质量调整寿命年) 效用的另一个尺度QALY,等价于身体健康不衰减的一年。 有残疾的病人愿意恢复到完全健康而愿意缩短预期寿命。 例如:患肾病的病人对“在透析机上生活两年”于“完全健康地生活一年”之间没有偏向性。 金钱的效用 经济学位效用度量提供了一个明显的候选:金钱。 假设你在一个电视游戏节目中击败了其余竞争者。主持人现在给你一个选择:你可以拿走1000000美元的奖金,或者你可以扔硬币赌一次,如果硬币正面朝上,你的结局一无所获,但是如果硬币正面朝下,你最终得到2500000美元。 如果你像大多数人一样,你会拒绝赌博而拿走这一百万。你这是不理性的吗? 假设硬币是公正的,该赌博的期望货币价值(EMV)是(0.5(£0)+0.5(£2500000))=£1250000,这比原始奖金一百万多,但并不意味着接受这一赌博是一个更好的决策,假设我们用Sn表示拥有总共n美元的财富状态,而你当前的财富是K美元,那么,接受和拒绝赌博的两个行动的期望效用是: 为了决定该做什么,我们需要改结果状态分配效用。假设你给当前的财富状况分配一个效用值5,给定状态 分配效用值9,给状态 分配效用值8.那么,理性的行动是拒绝赌博,但可能一个千万富翁可能接受此次赌博。 曲线的正值部分的斜率是递减的,那么对于任意抽奖L,“面对这次抽奖”的效用少于“把这次抽奖的期望货币价值当做确定的东西给你”的效用: 有此形状的智能体是规避风险的:它们偏好比赌博的期望货币价值小的确定收益。 另一方面,在大多数额负财产的“绝望”区间,Agent的行为追求风险。 一个Agent能接收的代替某次抽奖的价值被称为这次抽奖的确定性等价物。 研究表明大部分人会接受用40美元代替一次有一半的机会赢得100美元的赌博。 期望效用与后决策失望 选择最佳行为a的理性方式是最大化期望效用: 实际的期望效用:真实期望效用的估计值 假设这个估计值是无偏估计,也就是说误差的期望值 是0. 乐观者报应 人类评价和非理性 决策理论是一种规划性理论:它描述了一个理性的Agent应该如何行动。另一方面,一种描述性理论,描述了实际的Agent——例如人类——真正会如何行动。 两者是不一致的。实际表明人类“有先兆地非理性”。 最有名的问题是Allais悖论。人们在两次抽奖A和B之间选择,然后在C和D之间选择,它们的奖励是: A: 80%的机会获得400美元 B:100%的机会获得300美元 C:20%的机会获得4000美元 D:25%的机会获得3000美元 确定性效应 Ellsberg悖论,这里,奖励是固定的,但概率是无限定的。你的工资降依赖
您可能关注的文档
最近下载
- 《园林生态学》教学课件(第1-4章).pptx VIP
- 《公文写作能力提升专项培训课件》.ppt VIP
- 2024-2025学年上海市普陀区六年级下学期数学期末试题含详解.pdf VIP
- 制造业企业员工高离职率分析.pdf VIP
- GB50461-2024:石油化工静设备安装工程施工质量验收规范.pptx VIP
- 三江A116火灾报警控制器简易操作规程.docx
- (新版)社会体育指导员理论知识考试题库(含答案).docx VIP
- DB31T 1104-2018 城市轨道交通导向标识系统设计规范.docx VIP
- 2023年浙江省军队转业干部录用考试试题.docx VIP
- 口渴了-朋友帮你.ppt VIP
原创力文档

文档评论(0)