PART 1 概率推理 - 6 简单决策 Simple Decisions - 《决策算法笔记》

1. 对理性偏好的约束 Constraints on Rational Preferences
2. 效用函数 Utility function
3. 效用诱导 Utility Elicitation
4. 最大期望效用原则 Maximum Expected Utility Principle
5. 决策网络 Decision Networks
6. 信息的价值 Value of Information
7. 不理性 Irrationality

:::info 本章介绍简单决策的概念——在不确定的情况下做出单个决策。
从效用理论的角度研究决策问题——将智能体的偏好建模为不确定结果上的实值函数。
本章首先讨论了对理性偏好的约束导致效用函数的存在，然后介绍了理性下的最大期望效用原则，并展示了如何将决策问题表示为决策网络和求解最优决策的算法，再引入了信息的价值的概念，最后讨论了人类决策并不总是符合最大期望效用原则。 :::

1. 对理性偏好的约束 Constraints on Rational Preferences

使用以下运算符表示我们的偏好（preference）：

：如果偏好胜过
：如果对和保持中立
：如果偏好胜过或者保持中立

偏好操作符还可以用来比较不确定结果的偏好。
lottery是一系列结果及其关联的概率 6 简单决策 Simple Decisions - 图10 ， 6 简单决策 Simple Decisions - 图11 是一组结果， 6 简单决策 Simple Decisions - 图12 是它们的关联概率。
对偏好施加约束：（这些约束称为理性偏好 rational preference）

完整性：或或正好成立
传递性：如果且，则
连续性：如果，则存在一个概率使得
独立性：如果，则对于任何和概率，有
2. 效用函数 Utility function
根据对理性偏好的约束，存在一个实值效用函数，使得以下同时成立：

当且仅当
当且仅当

对于任意常数 6 简单决策 Simple Decisions - 图31 和 6 简单决策 Simple Decisions - 图32 ， 6 简单决策 Simple Decisions - 图33 当且仅当 6 简单决策 Simple Decisions - 图34 引起的偏好与 6 简单决策 Simple Decisions - 图35 相同。
于是，lottery的效用可以表示为 6 简单决策 Simple Decisions - 图36
如果效用函数有界，那么可以定义标准化的效用函数，进行放缩和转换。

3. 效用诱导 Utility Elicitation

效用诱导 Utility elicitation/preference elicitation（？）：从一个人或一群人中推断效用函数，以构建决策系统。
效用诱导的方法之一：将最差结果 6 简单决策 Simple Decisions - 图37 固定为 6 简单决策 Simple Decisions - 图38 ，将最好结果 6 简单决策 Simple Decisions - 图39 固定为 6 简单决策 Simple Decisions - 图40 。
确定结果 6 简单决策 Simple Decisions - 图41 的效用：确定概率 6 简单决策 Simple Decisions - 图42 ，使得 6 简单决策 Simple Decisions - 图43 ，然后， 6 简单决策 Simple Decisions - 图44

例如货币的效用函数，假设A代表获得50美元，B代表50%机会获得100美元。

风险中性：效用函数是线性的，在A和B之间没有偏好
风险寻求：效用函数是凸的，偏好有50%机会获得100美元
风险规避：效用函数是凹的，偏好获得50美元

4. 最大期望效用原则 Maximum Expected Utility Principle

假设概率模型 6 简单决策 Simple Decisions - 图48 ，表示我们在观测 6 简单决策 Simple Decisions - 图49 并采取行动 6 简单决策 Simple Decisions - 图50 的情况下，状态变为 6 简单决策 Simple Decisions - 图51 的概率。
效用函数 6 简单决策 Simple Decisions - 图52 ，编码我们对结果空间的偏好。
在观测 6 简单决策 Simple Decisions - 图53 并采取行动 6 简单决策 Simple Decisions - 图54 的情况下的预期效用： 6 简单决策 Simple Decisions - 图55 （核心公式）
*最大预期效用原则：理性智能体应选择使预期效用最大化的行动 6 简单决策 Simple Decisions - 图56

5. 决策网络 Decision Networks

决策网络（Decision Network）：也称为影响图 influence diagram，是贝叶斯网络的推广，包括行动和效用节点，有向无环，以简洁地表示决策问题的概率和效用模型。
决策网络包括三种节点：

机会节点chance node：对应于随机变量，圆圈表示
决策节点decision node：对应于决策变量，正方形表示
效用节点utility node：对应于效用变量，不能有子节点，菱形表示

包括三种有向边：

条件边conditional edge：在机会节点中结束，表示该机会节点的不确定性取决于其所有父节点的值
信息边informational edge：在决策节点中结束，表示该节点相关的决策是在了解其父节点的值下做出的，虚线/省略表示
功能边functional edge：在效用节点中结束，表示效用节点由其父节点的结果决定

决策网络举例：

解决一个简单的决策网络问题：迭代所有可能的决策实例，对每个实例评估预期效用，以获得一个最大化预期效用的决策。首先实例化动作节点和观测到的机会节点，然后通过推断计算效用函数在输入下的后验值。（涉及贝叶斯网络中的推断，因此是NP-hard）
使决策网络的评估更有效的方法：如果决策网络中没有子节点（由条件边、信息边或功能边定义），则将其删除。

6. 信息的价值 Value of Information

信息的价值 value of information：观测额外的变量能增加多少效用，即观测该变量后预期效用的增加值。
6 简单决策 Simple Decisions - 图58 表示给定观测值 6 简单决策 Simple Decisions - 图59 下的最优行动的预期效用。（计算每种行动下的 6 简单决策 Simple Decisions - 图60 ，选出最大的那个）
给定 6 简单决策 Simple Decisions - 图61 的变量 6 简单决策 Simple Decisions - 图62 的VOI是： 6 简单决策 Simple Decisions - 图63
只有当观测额外的变量导致不同的最优决策时，预期效用才能增加。反之，如果对行动的选择没有影响，则上式计算结果为 6 简单决策 Simple Decisions - 图64 。
信息价值度量 value-of-information metric：用于确定适当的观测序列。每次观测后，确定剩余未观测变量的VOI，然后选择VOI最大的未观测变量进行观测。直到观测更多的变量但VOI不再增加为止。选择这个最佳动作。

7. 不理性 Irrationality

决策理论是一种规范性理论 normative theory，而不是预测人类行为的描述性理论 descriptive theory。
设计决策系统时可能存在的问题：人类的判断和偏好一般不遵循6.1节中的约束。虽然决策系统的建议可能是合理的，但可能不符合人类的偏好。