:::info
本章介绍简单决策的概念——在不确定的情况下做出单个决策。
从效用理论的角度研究决策问题——将智能体的偏好建模为不确定结果上的实值函数。
本章首先讨论了对理性偏好的约束导致效用函数的存在,然后介绍了理性下的最大期望效用原则,并展示了如何将决策问题表示为决策网络和求解最优决策的算法,再引入了信息的价值的概念,最后讨论了人类决策并不总是符合最大期望效用原则。
:::
1. 对理性偏好的约束 Constraints on Rational Preferences
使用以下运算符表示我们的偏好(preference):
:如果偏好
胜过
:如果对
和
保持中立
:如果偏好
胜过
或者保持中立
偏好操作符还可以用来比较不确定结果的偏好。
lottery是一系列结果及其关联的概率,
是一组结果,
是它们的关联概率。
对偏好施加约束:(这些约束称为理性偏好 rational preference)
- 完整性:
或
或
正好成立
- 传递性:如果
且
,则
- 连续性:如果
,则存在一个概率
使得
- 独立性:如果
,则对于任何
和概率
,有
2. 效用函数 Utility function
根据对理性偏好的约束,存在一个实值效用函数,使得以下同时成立:
当且仅当
当且仅当
对于任意常数和
,
当且仅当
引起的偏好与
相同。
于是,lottery的效用可以表示为
如果效用函数有界,那么可以定义标准化的效用函数,进行放缩和转换。
3. 效用诱导 Utility Elicitation
效用诱导 Utility elicitation/preference elicitation(?):从一个人或一群人中推断效用函数,以构建决策系统。
效用诱导的方法之一:将最差结果固定为
,将最好结果
固定为
。
确定结果的效用:确定概率
,使得
,然后,
例如货币的效用函数,假设A代表获得50美元,B代表50%机会获得100美元。
- 风险中性:效用函数是线性的,在A和B之间没有偏好
- 风险寻求:效用函数是凸的,偏好有50%机会获得100美元
- 风险规避:效用函数是凹的,偏好获得50美元
4. 最大期望效用原则 Maximum Expected Utility Principle
假设概率模型,表示我们在观测
并采取行动
的情况下,状态变为
的概率。
效用函数,编码我们对结果空间的偏好。
在观测并采取行动
的情况下的预期效用:
(核心公式)
*最大预期效用原则:理性智能体应选择使预期效用最大化的行动
5. 决策网络 Decision Networks
决策网络(Decision Network):也称为影响图 influence diagram,是贝叶斯网络的推广,包括行动和效用节点,有向无环,以简洁地表示决策问题的概率和效用模型。
决策网络包括三种节点:
- 机会节点chance node:对应于随机变量,圆圈表示
- 决策节点decision node:对应于决策变量,正方形表示
- 效用节点utility node:对应于效用变量,不能有子节点,菱形表示
包括三种有向边:
- 条件边conditional edge:在机会节点中结束,表示该机会节点的不确定性取决于其所有父节点的值
- 信息边informational edge:在决策节点中结束,表示该节点相关的决策是在了解其父节点的值下做出的,虚线/省略表示
- 功能边functional edge:在效用节点中结束,表示效用节点由其父节点的结果决定
决策网络举例:
解决一个简单的决策网络问题:迭代所有可能的决策实例,对每个实例评估预期效用,以获得一个最大化预期效用的决策。首先实例化动作节点和观测到的机会节点,然后通过推断计算效用函数在输入下的后验值。(涉及贝叶斯网络中的推断,因此是NP-hard)
使决策网络的评估更有效的方法:如果决策网络中没有子节点(由条件边、信息边或功能边定义),则将其删除。
6. 信息的价值 Value of Information
信息的价值 value of information:观测额外的变量能增加多少效用,即观测该变量后预期效用的增加值。表示给定观测值
下的最优行动的预期效用。(计算每种行动下的
,选出最大的那个)
给定的变量
的VOI是:
只有当观测额外的变量导致不同的最优决策时,预期效用才能增加。反之,如果对行动的选择没有影响,则上式计算结果为。
信息价值度量 value-of-information metric:用于确定适当的观测序列。每次观测后,确定剩余未观测变量的VOI,然后选择VOI最大的未观测变量进行观测。直到观测更多的变量但VOI不再增加为止。选择这个最佳动作。
7. 不理性 Irrationality
决策理论是一种规范性理论 normative theory,而不是预测人类行为的描述性理论 descriptive theory。
设计决策系统时可能存在的问题:人类的判断和偏好一般不遵循6.1节中的约束。虽然决策系统的建议可能是合理的,但可能不符合人类的偏好。