:::info 本章介绍简单决策的概念——在不确定的情况下做出单个决策。
效用理论的角度研究决策问题——将智能体的偏好建模为不确定结果上的实值函数。
本章首先讨论了对理性偏好的约束导致效用函数的存在,然后介绍了理性下的最大期望效用原则,并展示了如何将决策问题表示为决策网络和求解最优决策的算法,再引入了信息的价值的概念,最后讨论了人类决策并不总是符合最大期望效用原则。 :::

1. 对理性偏好的约束 Constraints on Rational Preferences

使用以下运算符表示我们的偏好(preference)

  • 6 简单决策 Simple Decisions - 图1:如果偏好6 简单决策 Simple Decisions - 图2胜过6 简单决策 Simple Decisions - 图3
  • 6 简单决策 Simple Decisions - 图4:如果对6 简单决策 Simple Decisions - 图56 简单决策 Simple Decisions - 图6保持中立
  • 6 简单决策 Simple Decisions - 图7:如果偏好6 简单决策 Simple Decisions - 图8胜过6 简单决策 Simple Decisions - 图9或者保持中立

偏好操作符还可以用来比较不确定结果的偏好。
lottery是一系列结果及其关联的概率6 简单决策 Simple Decisions - 图106 简单决策 Simple Decisions - 图11是一组结果,6 简单决策 Simple Decisions - 图12是它们的关联概率。
对偏好施加约束:(这些约束称为理性偏好 rational preference

  • 完整性6 简单决策 Simple Decisions - 图136 简单决策 Simple Decisions - 图146 简单决策 Simple Decisions - 图15正好成立
  • 传递性:如果6 简单决策 Simple Decisions - 图166 简单决策 Simple Decisions - 图17,则6 简单决策 Simple Decisions - 图18
  • 连续性:如果6 简单决策 Simple Decisions - 图19,则存在一个概率6 简单决策 Simple Decisions - 图20使得6 简单决策 Simple Decisions - 图21
  • 独立性:如果6 简单决策 Simple Decisions - 图22,则对于任何6 简单决策 Simple Decisions - 图23和概率6 简单决策 Simple Decisions - 图24,有6 简单决策 Simple Decisions - 图25

    2. 效用函数 Utility function

    根据对理性偏好的约束,存在一个实值效用函数6 简单决策 Simple Decisions - 图26,使得以下同时成立:
  • 6 简单决策 Simple Decisions - 图27当且仅当6 简单决策 Simple Decisions - 图28
  • 6 简单决策 Simple Decisions - 图29当且仅当6 简单决策 Simple Decisions - 图30

对于任意常数6 简单决策 Simple Decisions - 图316 简单决策 Simple Decisions - 图326 简单决策 Simple Decisions - 图33当且仅当6 简单决策 Simple Decisions - 图34引起的偏好与6 简单决策 Simple Decisions - 图35相同。
于是,lottery的效用可以表示为6 简单决策 Simple Decisions - 图36
如果效用函数有界,那么可以定义标准化的效用函数,进行放缩和转换。

3. 效用诱导 Utility Elicitation

效用诱导 Utility elicitation/preference elicitation(?):从一个人或一群人中推断效用函数,以构建决策系统。
效用诱导的方法之一:将最差结果6 简单决策 Simple Decisions - 图37固定为6 简单决策 Simple Decisions - 图38,将最好结果6 简单决策 Simple Decisions - 图39固定为6 简单决策 Simple Decisions - 图40
确定结果6 简单决策 Simple Decisions - 图41的效用:确定概率6 简单决策 Simple Decisions - 图42,使得6 简单决策 Simple Decisions - 图43,然后,6 简单决策 Simple Decisions - 图44

例如货币的效用函数,假设A代表获得50美元,B代表50%机会获得100美元。

  • 风险中性:效用函数是线性的,在A和B之间没有偏好6 简单决策 Simple Decisions - 图45
  • 风险寻求:效用函数是凸的,偏好有50%机会获得100美元6 简单决策 Simple Decisions - 图46
  • 风险规避:效用函数是凹的,偏好获得50美元6 简单决策 Simple Decisions - 图47

4. 最大期望效用原则 Maximum Expected Utility Principle

假设概率模型6 简单决策 Simple Decisions - 图48,表示我们在观测6 简单决策 Simple Decisions - 图49并采取行动6 简单决策 Simple Decisions - 图50的情况下,状态变为6 简单决策 Simple Decisions - 图51的概率。
效用函数6 简单决策 Simple Decisions - 图52,编码我们对结果空间的偏好。
在观测6 简单决策 Simple Decisions - 图53并采取行动6 简单决策 Simple Decisions - 图54的情况下的预期效用6 简单决策 Simple Decisions - 图55核心公式)
*最大预期效用原则
:理性智能体应选择使预期效用最大化的行动6 简单决策 Simple Decisions - 图56

5. 决策网络 Decision Networks

决策网络(Decision Network):也称为影响图 influence diagram,是贝叶斯网络的推广,包括行动和效用节点,有向无环,以简洁地表示决策问题的概率和效用模型。
决策网络包括三种节点

  • 机会节点chance node:对应于随机变量,圆圈表示
  • 决策节点decision node:对应于决策变量,正方形表示
  • 效用节点utility node:对应于效用变量,不能有子节点,菱形表示

包括三种有向边

  • 条件边conditional edge:在机会节点中结束,表示该机会节点的不确定性取决于其所有父节点的值
  • 信息边informational edge:在决策节点中结束,表示该节点相关的决策是在了解其父节点的值下做出的,虚线/省略表示
  • 功能边functional edge:在效用节点中结束,表示效用节点由其父节点的结果决定

    决策网络举例: image.png

解决一个简单的决策网络问题:迭代所有可能的决策实例,对每个实例评估预期效用,以获得一个最大化预期效用的决策。首先实例化动作节点和观测到的机会节点,然后通过推断计算效用函数在输入下的后验值。(涉及贝叶斯网络中的推断,因此是NP-hard)
使决策网络的评估更有效的方法:如果决策网络中没有子节点(由条件边、信息边或功能边定义),则将其删除。

6. 信息的价值 Value of Information

信息的价值 value of information:观测额外的变量能增加多少效用,即观测该变量后预期效用的增加值。
6 简单决策 Simple Decisions - 图58表示给定观测值6 简单决策 Simple Decisions - 图59下的最优行动的预期效用。(计算每种行动下的6 简单决策 Simple Decisions - 图60,选出最大的那个)
给定6 简单决策 Simple Decisions - 图61的变量6 简单决策 Simple Decisions - 图62的VOI是:6 简单决策 Simple Decisions - 图63
只有当观测额外的变量导致不同的最优决策时,预期效用才能增加。反之,如果对行动的选择没有影响,则上式计算结果为6 简单决策 Simple Decisions - 图64
信息价值度量 value-of-information metric:用于确定适当的观测序列。每次观测后,确定剩余未观测变量的VOI,然后选择VOI最大的未观测变量进行观测。直到观测更多的变量但VOI不再增加为止。选择这个最佳动作。

7. 不理性 Irrationality

决策理论是一种规范性理论 normative theory,而不是预测人类行为的描述性理论 descriptive theory
设计决策系统时可能存在的问题:人类的判断和偏好一般不遵循6.1节中的约束。虽然决策系统的建议可能是合理的,但可能不符合人类的偏好。