一、什么是博弈论?

博弈论(Game Theory)相互依存情况中的理性行为的数学建模。博弈由这几个要素构成:

  • 玩家(Players):博弈的参与者
  • 策略(Strategy):博弈玩家各自的操作
  • 收益(Payoff):博弈玩家的收益,一般用矩阵来表示,在连续的时候也会写成函数。
  • 信息(Information):博弈玩家知道的信息
  • 理性(Rationality):博弈玩家是理性的,在竞争的情况下使自己的收益最大化

博弈论方法的本质——相互依存性:每一方的收益不仅依赖于自己的策略,同时也依赖其他参与方的策略。
博弈论研究的目标——均衡:因为博弈的参与方的策略改变会造成收益的变化,所以,各玩家会调整策略使自己的收益最大。在这样的情况下,一个“稳定”的策略选择是值得研究的。各个玩家选择了各自的策略之后,没有动机去改变当前的策略,就形成了稳定的状态。
定义是抽象的,还是用一些例子来找找感觉吧。

二、例子:囚徒困境

这个例子应该是众所周知。简要介绍一下:
两个共谋犯罪的人被关入监狱,不能互相沟通情况。①如果两个人都不揭发对方,则由于证据不确定,每个人都坐牢一年;②若一人揭发,而另一人沉默,则揭发者因为立功而立即获释,沉默者因不合作而入狱十二年;③若互相揭发,则因证据确凿,二者都判刑六年。
考察博弈的几个要素:

  1. 玩家:这两个犯罪的人,记为A、B
  2. 策略:二者的策略都是{揭发、沉默}
  3. 收益:用收益矩阵来表示

博弈论介绍 - 图1
囚徒困境收益矩阵
4. 信息:这种情况是完全信息的,即,每一参与者都拥有所有其他参与者的收益函数的准确信息。
剧透一下,囚徒困境的”均衡“,是二人都选择揭发的策略。

三、分类

  • 根据玩家数量分为:1人,2人,多人博弈
  • 根据“同时做决策”还是“轮流做决策”分为:策略式博弈(静态博弈)和扩展式博弈(动态博弈)、
  • 根据信息的了解情况分为:完全信息博弈和非完全信息博弈
  • 根据收益分为:零和博弈、非零和博弈
  • 合作、非合作博弈
  • 根据策略的数量分为:有限博弈和无限博弈

当然,上面的分类很杂,我们的课程主要讲了这几种:

  1. 完全信息策略式博弈
  2. 非完全信息策略式博弈
  3. 完全信息扩展式博弈
  4. 非完全信息扩展式博弈
  5. 重复博弈

    四、小结

    博弈论很有趣的,你会发现很多意想不到的结果。不过,由于博弈论假设每个玩家都是“理性”的,而现实生活却不一定是这样,因此,很多情况下博弈论给出的结论只是一个理论上的参考。
    有一些有意思的小例子,算是智力小测试了,感兴趣可以看看:

  6. Nim博弈:有一堆硬币,总个数是N;有2个玩家,轮流取硬币。每次可以选择取1枚或2枚。取到最后一枚硬币的人获胜。请问先手有必胜策略还是后手?(和N有关)

  7. 海盗博弈:这个更有意思一些