一、引言
前面,我们学习了策略式博弈的纳什均衡。每个玩家可选的策略也叫纯策略。在前面讲的纳什均衡中,每个玩家都要选定一个纯策略。但有的时候并不能找到一个纯策略的纳什均衡,举例如下:
没有纯策略纳什均衡
还有一个常见的例子:石头剪刀布,就没有纯策略的纳什均衡。
这个时候,需要引入新的概念——混合策略。
二、混合策略博弈
以石头剪刀布为例,无论双方采用哪种策略组合,输的一方总可以改变策略使自己反败为胜,因此没有纯策略的纳什均衡。通过引入“随机性”来解决这个问题。
通俗地解释,混合策略就是在纯策略上加上概率,在一次博弈中,玩家随机地选择一种纯策略。
1. 混合策略
1)纯策略
2)混合策略
混合策略是给每个纯策略分配一个概率,一个玩家的策略集就是一个“样本空间”。
用表示
上的概率分布,即:
那么,混合策略
3)混合策略博弈结果
2. 期望收益
在这样一个“随机”的博弈中,收益如何计算呢?这就需要计算期望的收益了。期望的收益就是纯策略的博弈结果的收益乘上这个结果出现的概率,对每个博弈结果进行求和。
给定一个策略式博弈和一个混合策略博弈结果
,玩家
的期望收益是
(假设每个玩家的决策是独立的,因此是每个玩家的相应策略的概率乘积)
3. 形式化——混合策略博弈
4. 例子
三、混合策略纳什均衡
1. 定义:混合策略纳什均衡(MNE)
一个混合策略博弈结果是一个混合策略纳什均衡(mixed strategy Nash equilibrium),当对于每个玩家
,都有:
通俗地解释就是:每个玩家都选择在对手不改变的情况下的最好的分布
简写为:MNE
2. 最优反应
3. 存在性:纳什定理
定理:有限的策略式博弈一定存在混合策略纳什均衡
有限指:有限的玩家,每个玩家都有有限种纯策略。
4、求解混合策略纳什均衡
定理:是MNE当且仅当玩家
的每个具有正概率的纯策略都是
的最优反应。(证明略)
也就是说,玩家选任意一种纯策略的期望收益是相同的。
用这个定理来求解MNE
例子
设玩家1选择U的概率是,玩家2选择L的概率是
由玩家2选L的期望收益等于玩家2选R的期望收益,得式子:
由玩家1选U的期望收益等于玩家1选D的期望收益,得式子:
解得:
因此求得纳什均衡
解释
“玩家选任意一种纯策略的期望收益是相同的”也可以这么想:如果玩家
的纯策略的期望收益不同的话,那么 他会一直选期望收益高的那个,也就是选择一个纯策略,而不是混合策略。这样就回到了纯策略博弈的时代,开篇的例子又说明了有些博弈是找不到纯策略的均衡的。
因此,如果想保持一种”稳定“的局面,每个玩家都没有动机改变当前的策略(或分布),就要保证它选择每个策略的期望收益都相同。
四、小结
本篇内容有:
- 混合策略博弈的定义
- 混合策略纳什均衡的定义及求解