Vol.13 | 生活与博弈论（下）_思维周刊_第 13 期 - 《思维周刊》

🌵 | 智猪博弈
- 🥦 小猪跑赢大猪
- 🥦 学会“抱大腿”
🌵 | 猎鹿博弈
- 🥦 帕雷托效率
- 🥦 夏普里值方法
🌵 | 枪手博弈
- 🥦 当你拥有优势策略
🌵 | 斗鸡博弈
🌵 | 协和博弈
- 🥦 蜈蚣博弈悖论
- 🥦 大甩卖的秘密
🌵 | 海盗分金博弈
🌵 | 路径依赖博弈

思维周刊.png

摘要：本周继续学习一下博弈论以及生活中的博弈例子。

🌵 | 智猪博弈

🥦 小猪跑赢大猪

所谓“智猪模式”的基本情况如下：

在一个猪圈里养了两只猪，一大一小，并且在一个食槽内进食。根据猪圈的设计，猪必须到猪圈的另一端碰触按钮，才能让一定量的猪食落到食槽中。假设落入食槽中的食物是 10 份，且两头猪都具有智慧。那么当其中一只猪去碰按钮时，另一只猪便会趁机抢先去吃落到食槽中的食物，而且由于从按钮到食槽有一定距离，所以碰触按钮的猪所吃到的食物数量必然会减少。如此一来，会出现以下三种情况：

如果大猪前去碰按钮，小猪就会等在石槽边，由于需要在按钮和食槽之间往返，所以大猪只能在赶回食槽后和小猪分吃剩下的食料，最终两只猪的进食比例是 5:5。
如果小猪前去触碰按钮，大猪则会等在石槽边，那么等到小猪返回石槽时，大猪刚好吃光所有的食物，最终的进食比例是 10:0。
如果两只猪都不去触碰按钮，那么两只猪都不得进食，最终的进食比例是 0:0。

在这种情况下，无论是大猪还是小猪，都只有两种选择：要么等在食槽旁边，要么前去触碰按钮。

上面的分析中我们可以发现：如果小猪等在石槽旁边，大猪去按按钮，自己将会吃到一半的食物；而如果小猪去触碰按钮，结果是一点都吃不到。所以对小猪来说，等着不动，能吃上一半，而自己去按按钮，反而一无所获。所以小猪的选择已经非常明确了，他的优势策略就是等在石槽旁。再来看大猪，他已经不能再指望小猪去按按钮了，自己按按钮的话至少还能吃上一半，要不就都得饿肚子。于是他只好来回奔波，小猪则搭便车，坐享其成。

很显然，“小猪搭便车，大猪辛苦奔波”，是这种模式最为理性，也最合理的解决方式。无论是大猪还是小猪，等着别人去碰按钮，都是最好的选择。但是，如果两者都这样的话，也就只有一起挨饿的份儿了。所以大猪不得不去奔波，被占便宜。两头猪之间的“智猪博弈”非常简单，容易理解，同时还与许多社会中的现象有相同原理，能够给人们许多启发。

生活中，我们时常看到这样一种现象：实力雄厚的大品牌会对某类产品进行大规模的推广活动，投放大量广告。不过，一段时间之后，当我们去选购这类产品时，却发现品牌繁多，还有许多其他不知名的品牌也出现在这类商品当中。那么，为什么看不到这些小品牌对自己生产的同类产品进行推广呢？这种情况就可以采用“智猪模式”来解释——想要推出一种商品，产品的介绍和宣传是不可缺少的，不过由于开支过于庞大，小品牌大多无法独立承担广告费用。于是小品牌搭乘大品牌的“便车”，在大品牌对产品进行宣传推广并形成一定消费市场后，再投放自己的产品，把他们与大品牌的同类产品摆放在一起进行销售，以获得利润。很显然在这场博弈中，小品牌就是“小猪”，而资金和生产能力都具有某种规模的大品牌则是“大猪”。

🥦 学会“抱大腿”

“智猪博弈模式”中有一种非常奇怪的现象，那就是小猪如果等着大猪去碰按钮，还能抢着一半食物吃；而如果是自己去碰按钮，反而没有食物吃。也就是，劳动反而不如不劳动。既然如此，小猪的优势策略就是趴在一边，等着分享大猪的劳动成果，也就是“抱大腿”“搭便车”。

“抱大腿”在汉语中是一个带有贬义的词汇，但是这是一种非常符合经济学理论的行为。而且，在某种程度上来说，实力稍微弱的一方可以利用他人的强势，为自己服务，甚至最终凌驾于对手之上。

四川的泸州老窖是国内白酒产品中名列前 10 的名牌产品。不过在 20 多年前，泸州老窖也只是在四川省省内小有名气，远没有今天这样的知名度。

1987 年，在泰国曼谷召开了国际饮料食品展览会。泸州老窖系列产品中的特曲酒获得该届展览会的最高奖项，3 年后，这款特曲酒又在第 14 届巴黎国际食品展览会上，荣获中国白酒产品中唯一的金奖。泸州老窖酒厂抓住时机，借助这两次国际展销会的声望和影响，邀请了当时的一些领导人以及各界有影响力的知名人士参加在人民大会堂召开的正式庆祝活动。同时，在当时的条件下，还借助各种形式的媒体，以获得国际奖项为由加大对自己产品的宣传力度，一时间泸州老窖的名字传遍了大江南北，成为了全国的知名品牌。

对泸州老窖来说，只要质量过硬，必定能把自己的产品打入全国市场，乃至国际市场，只是需要一定时间罢了。但是，泸州老窖酒厂借助产品获得国际奖项的机会，不仅提早完成了扩展市场的目标，而且省时省力，在很短的时间内就见到了成效，可谓是成功运用“抱大腿”“搭便车”这一策略的范例。

🌵 | 猎鹿博弈

猎鹿博弈的原型是这样的：

从前，某个村庄住着两个出色的猎人，他们靠打猎为生。在日复一日的打猎生活中，练就出一身强大的本领。一天他们两个外出打猎，可能是那天运气太好，进山不久就发现了一头梅花鹿，他们都很高兴，于是就商量要一起抓住梅花鹿。当时的情况是，他们只要把梅花鹿可能逃跑的两个路口堵死，那么梅花鹿便成为瓮中之鳖，无处可逃。当然，这要求他们必须齐心协力，如果他们中的任何一人放弃围捕，那么梅花鹿就能够成功逃脱，他们也将一无所获。

正当这两个人在为抓捕梅花鹿而努力时，突然一群兔子从路上跑过，如果猎人之中的一人去抓兔子，那么每人可以抓到4只。由所得利益大小来看，一只梅花鹿，可以让他们每个人吃 10 天，而 4 只兔子可以让他们每人吃 4 天，这场博弈的矩阵图表示如下：

		猎人乙
		猎兔	猎鹿
猎人甲	猎兔	（4，4）	（4，0）
	猎鹿	（0，4）	（10，10）

第一种情况：两个猎人都抓兔子，结果他们都能吃饱 4 天，如图左上角所示。

第二种情况：猎人甲抓兔子，猎人乙打梅花鹿。结果猎人甲可以吃饱 4 天，猎人乙什么都没有得到，如图右上角所示。

第三种情况：猎人甲打梅花鹿，猎人乙抓兔子，结果是猎人乙可以吃饱 4 天，猎人甲一无所获，如图左下角所示。

第四种情况：两个猎人进行合作，一起抓捕梅花鹿，结果两个人都得到了梅花鹿，都可以吃饱 10 天，如图右下角所示。

经过分析，我们可以发现：在这个矩阵中存在着两个“纳什均衡”，要么分别打兔子，每人吃饱 4 天；要么选择合作，每人可以吃饱 10 天。在这两种选择之中，后者对猎人来说无疑能够取得最大的利益，这也正是“猎鹿博弈”所要反映的问题——合作能够带来最大的利益。

但是在生活当中，由于人们争持不下而造成两败俱伤的事情比比皆是，究其原因，主要在于每个人都是独立的个体，在决策时只从自身的利益出发进行考虑，缺少与别人必要的沟通和协调。此外，他们不懂得，合作更能够实现利益最大化的道理。

🥦 帕雷托效率

在“猎鹿博弈”模式中出现了两个“纳什均衡”：（4，4）和（10，10）。两个“纳什均衡”分别代表了两个可能的结局，但是无法确定两种结局中哪一个会真正发生。比较这两个“纳什均衡”，我们可以轻而易举地判断出两个人一起去猎鹿，比各自为战分别去抓兔子，要多得 6 天的食物。根据长期在一起合作研究的两位博弈论大师，美国的哈萨尼教授和德国的泽尔腾教授的说法，两人合作猎鹿的“纳什均衡”比分别抓兔子的“纳什均衡”具有帕雷托优势。

帕雷托优势有一个准则，即帕雷托效率准则：经济的效率体现于配置社会资源以改善人们的境况，特别要看资源是否已经被充分利用，如果资源已经被充分利用，要想再改善，我就必须损害你，或者要改善你就必须损害我。一句话，如果想要再改善，任何人都必须损害别人。这时候就说，一个经济已经实现了帕雷托效率最优；相反，如果还可以在不损害别人的情况下改善任何一个人，就认为经济资源尚未充分利用，就不能说已经达到帕雷托效率最优。

效率，指资源配置已达到任何重新改变资源配置的方式，都不可能使一部分人在不损害别人的情况下受益的状态。人们把这一资源配置的状态称为“帕雷托最优状态”或“帕雷托有效”。

“猎鹿博弈”模型是以猎人双方平均分配猎物为前提的。前面我们对“猎鹿模型”的讨论只停留在整体利益最大化方面，却忽略了利益的分配问题，帕雷托效率在利益的分配问题上体现的十分明显。

假设两个猎人的狩猎水平并不相同，猎人甲要高于猎人乙，但猎人乙的身份却比猎人甲要高贵的多，拥有分配猎物的权利。那样又会出现什么样的局面呢？不难猜出，猎人乙一定不会和猎人甲平均分配猎物，而是分给猎人甲一小部分，可能只是 3 天的梅花鹿肉，而猎人乙则会得到 17 天的梅花鹿肉。

在这种情况下，虽然两个猎人的合作使得整体效率得到了提高，但却不是帕雷托改善，因为整体效率的提高并没有给猎人甲带来好处，反而还损害了他的利益。虽然总体效益得到了提高，但是对于其中一方来说，个体利益并没有随之增加，反而是减少了。

我们再大胆假设一下，猎人乙凭借手中的特权逼迫猎人甲与他合作，猎人甲虽然表面同意，但在他心里一定会有诸多抱怨，因此当他们合作在一起时，整体效率就会大打折扣。

如果我们把狩猎者的范围扩大，变成多人狩猎博弈。根据分配，他们可以被分成既得利益集团与弱势群体，这就像前几年我国出现的一些社会现象。

在 90 年代中期以前，我国改革的进程一直是一种帕雷托改善的过程，但是由于受到各种复杂的不确定因素影响，贫富之间的差距逐渐拉大，帕雷托改善的过程受到干扰。如果任由这种情况继续下去，那么社会稳定和改革深化都会受到严峻挑战。在危机时刻，国家和政府把注意力集中到弱势群体的生存状态上来，及时地提出建设和谐社会的目标，把改革拉回到健康的发展轨道之中。

🥦 夏普里值方法

夏普里在非策略多人合作利益分配问题上有很多的贡献，他创作了夏普里值法，对解决合作利益分配问题有很大的帮助，是一种既合理又科学的分配方式。

夏普里值方法以每局中人对联盟的边际贡献大小来分配联盟的总收益，它的目标是构建一种综合考虑冲突各方要求的折中的效用分配方案，从而保证分配的公平性。

夏普里值方法解决合作利益分配问题时，需要满足以下两个条件：第一，局中人之间的地位平等；第二，所有局中人所得到的利益之和是联盟的总财富。

以下是一个例子。

在一个周末，凯文与保罗一起到郊外游玩，他们两个人都带了午餐，打算在中午休息时享用。玩了一个上午，他们把各自的午餐拿出来准备大快朵颐，但他们发现两个人所带的都是披萨饼，只是数量不同而已，凯文带了 5 块，而保罗只带了 3 块。正当他们拿起披萨准备大吃的时候，有一个像他们一样出来游玩的人凑了过来，原来他没有带食物，而且附近又实在找不到饭馆，他看到凯文和保罗所带的食物比较多，就想和他们一起吃。凯伦和保罗都是好心人，他们了解情况后就痛快地答应了那个人和他们一起享用披萨，因为饥饿的缘故，8 块披萨饼很快就被他们吃光了。那个游人为了表示自己的谢意，临走之前特意给了凯文和保罗 8 枚金币。

凯文和保罗虽然是非常好的朋友，但是 8 枚金光闪闪的金币就让他们的友谊变成了笑话。在金钱面前，他们都表现的相当自私，谁也没有顾及友情，他们互不相让，凯文认为自己带了 5 块披萨，而保罗只带了 3 块。按照比例来分，保罗只能拿到 3 枚金币，而自己应该得到 5 枚金币。保罗认为凯伦的分配方法有问题，他觉得披萨是两个人所带来的，所以 8 枚金币也应该有两个人平分才对。他们两个人各执己见，吵了很长时间也没吵出个结果。最后凯文提议去找夏普里帮忙解决这个问题，保罗听后欣然同意。

在听过两个小家伙的叙述后，夏普里摸了摸保罗的头，用温和的语气对他说道，“你得到 3 个金币已经占了很大的便宜，你应该高高兴兴的接受才对，如果你一定要追求公平的话，那你应该只能得到 1 枚金币才对，你的朋友凯文应该得到 7 枚金币而不是 5 枚。”保罗听后十分不解地看着夏普里，他想“这是怎么回事？我的做法有什么错吗？难道夏普里是偏袒凯文不成？”

夏普里看出了保罗的困惑，就十分耐心地说，“孩子，我知道你在想什么，但是请你相信我，让我来给你分析一下你就明白了。首先，我们必须明白公平的分配并不能和平均分配划等号，公平分配的一个重要标准，就是当事人所得到的与他所付出的成一定比例。你们三人一共吃了 8 块披萨，8 块之中有你的 3 块，有凯文的 5 块。你们每个人都吃了 8 块披萨中的 1/3，也就是 8/3 块披萨。在那个游人所吃的 8/3 块披萨中，凯文带的披萨为 5 - 8/3 = 7/3，而你带的披萨为 3 - 8/3 = 1/3。这个比例显示，在游人所吃的披萨中，凯文的是你 7 倍，他留下来 8 枚金币，凯文得到的金币也应该是你的 7 倍。也就是说凯文应该得到 7 枚金币，而你只能得到 1 枚，这才是公平合理的分配方法，你觉得我说的对不对？”保罗听后仔细想了一会儿，他觉得夏普里的分析非常有道理，于是就接受了夏普里的分配方法，自己只拿了 1 枚金币，剩下的 7 枚都给了凯文。

🌵 | 枪手博弈

在博弈论的众多模式之中，有一个模式可以被简单的概括为“实力越强，死的越快”。这就是“枪手博弈”，该博弈的场景是这样设定的：

有三个枪手分别是甲，乙，丙。三人积怨已久，彼此水火不容。某天，三人碰巧一起出现在同一个地方。三人在看到其他两人的同时，都立刻拔出了腰上的手枪，眼看三人之间就要发生一场关乎生死的决斗。

当然，枪手的枪法因人而异，有的人是神枪手，有的人枪法差。这三人的枪法水平同样存在差距，其中，丙的枪法最烂，只有 40% 的命中率，乙的枪法中等，有 60% 的命中率，甲的命中率为 80%，是三人中枪法最好的。

接下来为了便于分析，我们需要像裁判那样为三人的决斗设定一些条件。假定三人不能连射，一次只能发射一颗子弹，那么三人同时开枪的话，谁最有可能活下来呢？

在博弈中，博弈者必定会根据对自己最有利的方式来制定博弈策略。在这场枪手之间的决斗中，对于每一个枪手而言，最佳策略就是除掉对自己威胁最大的那名枪手。

对枪手甲来说，自己的枪法最好，那么枪法中等的枪手乙就是自己最大的威胁，解决乙以后再解决丙，就是小菜一碟了。

对于枪手乙来说，与枪手丙相比，枪手甲对自己的威胁自然是最大的，所以枪手乙会把自己的枪口首先对准枪手甲。

最后再来看枪手丙，他的想法和枪手里一样。毕竟与枪手甲相比，枪手乙的枪法要差一些，除掉枪手甲后再对准枪手乙自己活下来的几率总会大一些，所以丙也会率先向枪手甲开枪。

这样一来，三个枪手在这一轮决斗中的开枪顺序是：枪手甲向枪手乙射击，枪手乙和枪手丙分别向枪手甲射击。

按照几率公式计算下来，三名枪手的存活率分别是：甲 = 0.24，乙 = 0.2；丙 = 1。

也就是说，在这轮决斗中，枪手甲的存活率是 24%，枪手乙的存活率是 20%。枪手丙，因为没有人把枪口对准他，所以他的存活率最高，是 100%。

我们知道，人的反应有快有慢，假设三个枪手不是同时开枪的，那么情况会有哪些变化呢？同样还是每人一次只能发射一颗子弹，假设三个枪手轮流开枪，那么在开枪顺序上就会出现三种情况：

枪手甲先开枪，按照上面每个枪手的最佳策略，第一个开枪的甲必定把枪口对准乙，根据甲的枪法会出现两个结果：一个是乙被甲打死，接下来就由丙开枪，丙会对着甲开枪，甲的存活率是 60%，丙的存活率依旧是 100%；另一种可能是乙活了下来，接下来由乙开枪，那么甲依旧是乙的目标，无论甲是否被乙打死，接下来开枪的是丙，丙的存活率依然是 100%。
枪手乙先开枪，和第 1 种情况几乎一样，枪手丙的存活率依旧是最高的。
枪手丙先开枪，枪手丙可以根据具体情况稍稍改变自己的策略，选择随便开一枪。这样，下一个开枪的是枪手甲，他会向枪手乙开枪，这样一来，枪手丙就可以仍然保持较高的存活率，如果枪手丙依然按原先制定的策略，向枪手甲射击，就是一种冒险行为，因为如果没有杀死甲，枪手甲会继续向枪手乙开枪，如果杀死了枪手甲，那么接下来枪手乙就会把枪口对准枪手丙，此时丙的存活率只有 40%，乙便成为了存活率最高的那一个人。

赤壁之战，就是“枪手博弈”的体现。

🥦 当你拥有优势策略

从某种程度上来说，枪手博弈可以说是一种策略博弈。因为这种博弈的结果与博弈者的实力没有直接关系，反而博弈者所采用的策略会直接影响到博弈的结果。

在博弈论中有一个概念，英文写作“Dominantstrategy”，即优势策略。那么什么是优势策略呢？在博弈中，对于某一个博弈者来说，无论其他博弈者采用何种策略，有一个策略始终都是最佳策略，那么这个策略就是优势策略。简单来说，就是某些时候它胜于其他策略，且任何时候都不会比其他策略差。

举一个简单的例子。如果你是一名篮球运动员，当你运球进攻来到对方半场的时候，遭到了对方后卫的拦截。你的队友紧跟在你的后面，准备接应。于是，你和队友一起与对方的后卫形成了 2 对 1 的阵势。此时你有两种解决方法：一是与对方后卫单打独斗，带球过人；二是与队友相互配合，进行传球。

那么这两种做法就是可供你选择的策略。先看第 1 种，与对方后卫单对单。假如你运球和过人的技术比对方防守技术要好，那么你就能赢过对方。假如对方的防守技术比较厉害，那么就有可能从你的手中将球断掉。如果从这个角度来说，这个策略的成功几率只有 50%。

再看第二种，你和队友形成配合。很显然，你和队友在人数上已经压倒了对方，而且两人配合变化频繁，采用这个策略，就会使你突破对方的防守，获得很高的成功率。而且，无论对方做出怎样的举动，都无法超越这个策略所达到的效果。所以，“把球传给队友，形成配合”就是你的优势策略。

不过，关于“优势决策”需要强调一点：“优势策略”中的“优势”，意思是对于博弈者来说，“该策略对于博弈者的其他策略占有优势，而不仅是对博弈者的对手的策略占有优势”。无论对手采用什么策略，某个参与者如果采用优势策略，就能使自己获得比采用其他策略更好的结果。

🌵 | 斗鸡博弈

在斗鸡场上，有两只好战的公鸡遇到一起。每只公鸡有两个行动选择，一是进攻，二是后退。如果一方退下来，而对方没有退下来，则对方获胜，退下来的公鸡会很丢面子；如果自己没退下来，而对方退下来，则自己胜利，对方很没面子；如果两只公鸡都选择进攻，那么会出现两败俱伤的结果；如果双方都退下来，那么打成平手，谁也不丢面子。

		A 鸡
		进攻	后退
B 鸡	进攻	（-2，-2）	（1，-1）
	后退	（-1，1）	（-1，-1）

从这个矩阵图中可以看出，如果两者都选择“进攻”，结果是两败俱伤，两者的收益均为 -2；如果一方“进攻”，另一方“后退”，“进攻”的公鸡收益为 1，赢得了面子，而后退的攻击收益为 -1，输掉了面子，但与两者都“进攻”相比，这样的损失要小；如果两者都选择“后退”，两者均不会输掉面，获得的收益为 -1。

在这个博弈中存在两个“纳什均衡”：一方“进攻”另一方“后退”。但关键是谁进谁退？在这个博弈中，如果存在着唯一的纳什均衡，那么这个博弈就是可预测的，即这个“纳什均衡”点，就是事先知道的唯一博弈结果。但是如果一个博弈不是只有一个“纳什均衡”点，而是两个或两个以上，那么谁都无法预测出结果。所以说，我们无法预测斗鸡博弈的结果，也就是无法知道在这个博弈中谁进谁退，谁输谁赢。

由此可以看出，斗鸡博弈描述的是两个强者在对抗冲突的时候，如何能让自己占据优势，获得最大收益，确保损失最小。斗鸡博弈中的参与双方，都处在一个力量均等，针锋相对的紧张局势中。

🌵 | 协和博弈

20 世纪 60 年代，英法两国政府联合投资开发大型超音速客机——协和飞机。这种飞机具有机身大、装饰豪华、速度快等很多优点，但是要想实现这些优点，必须付出很高的代价——仅设计一个新引擎的成本就达到了数亿元。英法两国政府都希望能够凭借这种大型客机赚钱，但是研究项目开始以后，他们发现了一个很严重的问题——如果要完成研发，需要不断的投入大量资金。就算研究成功，也不知道这种机型能否适应市场的需求。但是如果停止研究，那么以前的投资就等于打了水漂。

在这种两难的选择下，两国政府最后还是硬着头皮研制，成功了这种飞机投入市场以后暴露出很多缺点，如耗油量大，噪音大，污染严重，运营成本太高等等根本无法适应激烈的市场竞争，因此很快就被市场淘汰了，英法两国也遭到了很大的损失。其实，在研制协和飞机的过程中，如果英法政府能及时的选择放弃，他们就能够减少很大的损失。但令人遗憾的是，他们并没有那么做，最后协和飞机退出民航市场，才使英法两国从这个无底洞中脱身。

博弈论专家由此得到灵感，把英法两国政府在研究协和飞机时“骑虎难下”的博弈称为“协和谬误”，当人们进行了一项不理性的活动后，为此支付的时间和金钱成本，只要考虑将这项活动进行下去所需要耗费的精力，以及它能够带来的好处，在综合评定它能否给自己带来正效用。您对股票进行投资，如果发现这项投资并不能盈利，应及早停掉，不要去计较已经投入的精力，时间，金钱等各项成本，否则就会陷入困境之中。在博弈论中，这种现象被称为“协和谬误”，也称“协和博弈”。

🥦 蜈蚣博弈悖论

倒推法是分析在完全且完美状态下动态博弈的工具，虽然非常有效，但是也存在着致命的缺点。如果我们了解蜈蚣博弈悖论，就知道为什么倒推法存在着缺陷。

蜈蚣博弈是罗森塞尔最先提出的，他是这样一个博弈：博弈双方为甲和乙，两人轮流进行策略选择，可供选择的策略有两种，合作与不合作。假定由甲先选，然后是乙，接着再是甲，然后是乙……两个人就这样交替选择。假定甲乙之间的博弈次数为100次。那么这个博弈各自的支付如下：

合作合作合作合作合作
甲——乙——甲……甲——乙——{100，100}
背叛背叛背叛背叛背叛
1 2 3 n n+1

这个博弈的图形模式像一只蜈蚣，因而被称为”蜈蚣博弈”。

甲和乙是如何进行策略选择的？我们可以用逆向归纳法来分析这个博弈，在最后一步，甲在“合作”与“不合作”中进行选择时，因为“不合作”将会带来更大的利益，所以“不合作”的策略要优于“合作”，甲应当选择“不合作”。在倒数第二步，乙会这样想，下一步甲会选择“不合作”，所以我在这一步就提前背叛对方，将获得更多的好处，而避免下一次被背叛。因此在倒数第二步，乙的理性选择应该是“不合作”……以此类推，一直倒推到第一步，乙的理性选择就是不合作，这同我们前面所讲的有限次数重复性博弈中，双方达成不合作是一个道理。

这样的博弈结果是双方在第一步就不能达成一致。倒推法的结果是令人遗憾的。倒推法从逻辑推理来看是严密的，但是结论是反常理的。一开始就采取合作性策略有可能获取的收益为 100，而采取不合作的策略获取的收益为 1，这就违反常理了。从逻辑的角度看，一开始甲应该采取不合作的策略；而直觉告诉我们，采取合作策略是最优策略。甲一开始采取合作性策略的收益有可能是 0，但 1 或者 0 与 100 相比实在太小了。我们可以看到，这两者是相互矛盾的，这就是蜈蚣博弈的悖论。

博弈论专家对蜈蚣悖论做过实验研究，发现双方会自动选择合作性策略，根本不会出现一开始选择“不合作”策略而导致双方收益为 1 的情况。这种做法与倒推法相悖，但事实上，双方这样做要好于一开始甲就采取“不合作”的策略。

这样看来，倒推法是不正确的。但我们会发现，即使双方均采取合作策略，从一开始就走向合作，这种合作也坚持不到最后一步。只要是理性的人，出于自身利益的考虑，在某一步时肯定会采取不合作策略，那么倒推法肯定在这一步要起作用。合作在倒推法起作用的时候便不能进行下去。在现实中，这个悖论的对应情形：参与者不会在开始时确定他的策略为“不合作”，但是他不能确定在哪一处采取“不合作”策略。

张某是王某的朋友。王某打算向张某借钱，但又怕张某拒绝，在前往张某家的路上，他不断地想起张某家可能出现的情况：“要是他说没钱怎么办？他会不会说自己也急用钱？他会不会直接说不借我？……”这个人越想越愤怒，把自己所想的当成张某所想的，以己推人，对朋友产生了不满。“他为什么不肯借给我？朋友之间应该和睦相处，假如他向我借钱，我一定会借给他，可是我向他借钱他却不肯借给我。”

就这样，一路想着，他到了张某家，进门后便气愤地说：“不就有几个臭钱吗？我才不稀罕借呢。”他本来是借钱的，结果竟然说出这样的话，张某张口结舌，不明所以，不知何时得罪了他。

在生活中，一些喜欢以己度人的人可能会遇到这样的尴尬。虽然是个笑话，但我们发现，这个借东西的朋友所运用的思维方法有着倒推法的影子。

🥦 大甩卖的秘密

现在商品打折已经成为一种风气，走在大街小巷，总会看到商品店铺门口贴着“大甩卖”，“跳楼价”，“清仓处理”等字样，许多商店里还贴着“怒不讲价”等牌子，这种风气在整个商业系统中迅速蔓延开来，把打折当做招揽顾客的重要手段之一。

商场里“买 1 送 1”，“买 2 送 1”以及“买此物，送彼物”等广告也随处可见。每逢商场周年店庆的时候，是商家最忙的时候，他们都把周年店庆当作“答谢新老客户关爱”的最佳时刻，各种平面媒体上都有巨幅的广告在宣传，打出了类似这样的一些口号：“全场商品一律 7 折”，“满 300 送 100”，“满 400 立减 100”。这还不算，店庆本来只有一天，但商家一开就是二三周，甚至搞出一个月店庆的都有。有一些小店更夸张，他们每次都说“因为搬迁，最后一天大甩卖”，但是下次经过这家小店时，你会发现他依然好好的开在那里，而且和你上次见到的情况一样，也是“因为搬迁，最后一天大甩卖”，小店的主人似乎把每一天都当做最后一天来过。

商家的这些促销手段让人觉得自己占了便宜，买了这么多平时买不到的便宜物品。但是不要忘了，有句话叫“无利不起早”。商家如果不赚钱或者是赚的很少的话，他们还会这么做吗？谁都知道商人做生意是为了赚钱，让他们真的“大放血”是不可能的。

商家打折的秘密是什么呢？

有的商品不管你是只生产一件，还是要生产 1 万件，其中有一些投资是必须做的。也就是说，生产 1 万件商品用到的钱并不是生产一件商品的 1 万倍，而是远远小于这个数字。有些东西不管你生产多少件，其一些投入都是不变的，像厂房建筑和机器设备等。而且在短期内这些投资是固定的。

在短期内，这种在数量上不能改变的投资成本，我们称之为“不变成本”。而相对来说，一些随时可以改变数量的投资，我们称之为“可变成本”。如果你想生产一件产品，只需要几个工人就可以了；但如果你想生产 1 万件产品，那就需要投入更多的劳动力。商品所需要的总成本就等于“不变成本”和“可变成本”之和。

我们先做这样一个假设，在一段时间内，把商家生产出来的一些产品看作一个整体，再看看生产这些产品所消耗的成本，它包括“不变成本”和“可变成本”，我们把它平均分摊到每一件产品上，那么每一件产品中包含了多少“可变成本”和“不变成本”就是可以知道的了，我们由此还可以得到“平均可变成本”和“平均不变成本”的两个概念，他们相加就等于每个产品的“平均总成本”。那么商家从每件商品中获得的收益是多少呢？通过比较价格，以及以上几个方面的平均成本的大小关系，就可以知道商家每件商品的最低价格。

由此我们可以把商品的价格，从下面 3 种情况来解释：

商品价格比平均总成本高。这就意味着厂商从每件商品中都能获取一定的利润，在这种情况下，商家因为可以赚到钱，就会扩大生产。在短期内，他们根本不能预计商品价格会发生变化，但随着商品供给的不断扩大，商品价格自然会慢慢走低。
商品价格高于平均可变成本，但却低于平均总成本。厂商这时的销售收入已经不能弥补所消耗的所有成本了，但是总收益还是可以弥补不变的机器和厂房折旧成本，剩余的还可以补偿工人工资，自己的劳动投入等这些可变成本。由于这些折旧成本是必然的，即使你不生产，它也会发生折旧。所以对厂商来说，这时候生产比不生产好。因为生产了，至少还有一部分收入来弥补机器的折旧损失。于是，它会继续扩大生产，随着商品供给的进一步扩大，商品价格也会继续下降。
商品价格不仅远远低于商品生产的平均总成本，还低于可变成本。这时候商品的销售收入连弥补机器的折旧费用都不够，更不要说工人的工资了。这时候厂商卖产品是赔本的，他们会停止生产。

那么，我们就很容易理解商场里商品“打折销售”的原因了。商场里的商品卖的一定比刚出厂的价格贵，这是显而易见的，因为商场到工厂进货，交易，运输，商铺铺面租金，环境布置，员工工资等，许多方面这些都需要费用。换句话说，在商场里商品的最低价格应该比生产该商品时需要的可变成本高，一些商场只有这样才能获得利润。也可以说，商场里的商品都是一个有底价的，低于这个底价卖出去就会亏本。

不过我们在上面也说过，有一小部分商场确实是降价销售的，而且商品价格往往比实际造价还低，这是由一些特殊原因造成的，比如搬迁等等。如果这时候消费者去这家商场买东西，就会获得比较实在的价格，前提是这家店确实要搬迁了或因为其他什么原因确实不再经营此店了，但是这种情况并不常见。

前面所说的“店庆”只不过是降低了每个商品的利润，利用打折的方式得到薄利多销的目的。

🌵 | 海盗分金博弈

2010 年 1 月 27 日，一艘柬埔寨货船被索马里海盗劫持，3 月 23 日一艘英属维京岛的货轮被索马里海盗劫持……索马里海盗劫持船员后，就会向相关国家和公司索要赎金，一旦不能满足，他们多会残忍地杀害人质，海盗问题已经成为各国当下需要面对的一个难题。

在我们的印象中，海盗都是一群桀骜不驯的亡命之徒，他们勒索、抢劫、杀人等等，但是在一个故事中，他们却非常民主，这个故事就是著名的“海盗分金”。

假如在一艘海盗船上有 5 个海盗，他们抢来了 100 枚金币，那么该怎么分配这些金币呢？下面是他们分配的规则：

以抽签的方式确定每个海盗的分配顺序，签号分别是 1、2、3、4、5。

其次。抽到 1 号签的海盗提出一个分配方案，对这种分配方案 5 个海盗一起进行表决，如果海盗中有半数以上（含半数）的人赞成，那么它就获得通过，并以这一方案来分配 100 枚金币；假如他提出的方案被否决了，也就是只有半数以下的人赞成或没有人赞成他的方案，那么他将被扔进大海里喂鲨鱼。这时就轮到 2 号签的海盗提出分配方案，然后剩余的 4 个海盗一起表决，他的方案和前面一样只有超过半数（含半数）的海盗赞成，他提出的这一方案才能通过，并按他的这一方案分配 100 枚金币，反之，他和 1 号海盗一样会被扔进大海里喂鲨鱼。同理 3 号、4 号海盗也和上面一样，当找到一个所有海盗都接受的分配方案时，这种情况才会结束。假如最后只剩下 5 号海盗，那么他显然是最高兴的，因为他将独吞全部金币。

对这 5 个海盗，我们先做如下的假设：

假设每个海盗都能非常理智的判断得失，都是经济学上所说的“理性人”，并能够做出有利于自己的策略选择。换句话说，每个海盗都知道在某个分配方案中自己和别的海盗所处的位置，另外，假设不存在海盗间的联合串通或私底下的交易。
金币是完整而不可分割的，海盗们在分配金币时，只能以一个金币为单位，而不能出现半枚这样的数字。而且不能出现两个或两个以上的海盗共同拥有一枚金币的情况。
每个海盗都不愿意自己被丢到海里喂鲨鱼。在这个前提下，他们都希望自己能得到尽可能多的得到金币，他们都是名副其实的、只为自己利益打算的海盗，为了更多的获得金币或独吞金币，他们会尽可能投票让自己的同伴被丢进海里喂鲨鱼。
假定不存在海盗们不满意分配方案而大打出手的情况。

如果你是 1 号海盗，你提出什么样的分配方案才能保证该方案既能顺利通过，又避免自己被其他海盗丢进大海里呢？而且这一方案还可以使自己获得更多的金币。

大部分人对这个问题的第一感觉都是抽到 1 号签的海盗太不幸运了，这是因为每个海盗都是从自己的利益出发，他们当然希望参与分配金币的人越少越好，所以第 1 个提出方案的人能活下去的几率是很小的，就算他把钱全部分给另外 4 个海盗，自己一分不要，那些人也不一定赞同他的分配方案，看起来他只有死路一条了。

但事实远不是我们想象的那样。要 1 号海盗不死其实很简单，只要他提出的分配方案能使其余 4 个海盗中至少 2 个海盗同意，就能获得通过。所以 1 号海盗为了自己可以安全地活下去，就要分析自己所处的情况，他必须笼络两个处于劣势的海盗，同意他的分配方案。怎样才能使这两个海盗同意他的方案呢？假若 1 号海盗被丢进大海，那么这两个海盗得到的金币假定为 20 枚，那么只要 1 号海盗分给这两个海盗的金币，数额大于 20 枚，这两个海盗就会赞成他的分配方案。也就是说，如果不同意他的分配方案，这两个海盗只会得到更少的金币。

1 号海盗就该想办法了，怎样的分配方案才是可行的呢？

如果第 1 个海盗从自己利益出发进行分析，而不按照这种推理方法，就很容易陷入思维僵局：“如果我这样做，下面一个海盗会如何做呢？”这样的分析坚持不了几步；就会使你不知所措。

我们可以利用倒推法来解决这个看似复杂的问题，就是从结尾出发倒推回去。因为在最后一步中往往最容易看清楚什么是好的策略，什么是坏的策略。知道最后一步，就可以借助最后一步的结果，得到倒数第 2 步应该选择什么策略？然后由倒数第 2 步的策略推出倒数第 3 步的策略，以此类推。

因此，我们应该从 4 号和 5 号两个海盗入手，以此作为问题的突破口。我们先看看最后的 5 号海盗是怎么想的，他应该是最不想合作的一个，因为他没有被丢掉海里的鲨鱼的风险。前面 4 个海盗全部扔进海里是最好的，自己独吞个 100 枚金币。但是 5 号海盗并不是对每个海盗的分配方案都投反对票，他在投票之前，也要考虑其他海盗的分配方案通过情况。

但是，这种看似最为有利的形式，对于 5 号海盗来说却未必可行。因为，假如前面 3 位都被扔进大海，只剩下他和 4 号海盗的时候，4 号海盗一定会提出这样的分配方案，那就是 100 : 0，就是 4 号海盗分 100 枚金币，5 号 0 枚。如果对这个方案进行表决，对自己的这个方案，4 号海盗肯定投赞成票，因为就只剩下他们两个人了，4 号的赞成票就占了总数的一半，这个方案一定能通过表决。结果是 5 号海盗无法改变的，金币的分配方案，在只剩下 4 号海盗和 5 号海盗的时候是 100 : 0。

再往前推，我们看看只有 3 号、4 号、5 号海盗存在的情况。根据 5 号海盗的处境，3 号海盗会提出 99:0:1 的分配方案，即 3 号分 99 枚，4 号 0 枚，5 号 1 枚。对这个分配方案投票， 3 号一定会同意，4 号海盗肯定不会同意，但 5 号海盗一定会投赞成票。为什么 5 号海盗会投赞成票呢？因为如果不这样做，那么他和 4 号两票对一票不赞成 3 号的分配方案，3 号就会被丢入大海，那么接下来就只剩 5 号和 4 号了，就回到了我们在上一段的分析：5 号将什么都分不到。因此，当 3 号、4 号、5 号海盗共存时，金币的分配方案是 99:0:1。

以这种方法再往前推，我们看看当 2 号、3 号、4 号、5 号共存时的情况：2 号海盗这时候会根据推理预测到，假如他被抛下大海，那么分配方案是 99 : 0 : 1，那么它的最好分配方案是 98 : 0 : 0 : 2，即笼络 5 号海盗，放弃 3 号海盗和 4 号海盗。表决时 5 号海盗会同意，因为前面已经说过，如果 5 号海盗不同意这一分配方案，2 号海盗就会被丢入大海，那么他只能得到 1 枚金币，但如果同意 2 号海盗的分配方案，他却可以得到 2 枚金币，他肯定选择后者。3 号海盗和 4 号海盗，因为分不到金币，肯定投反对票，那么 4 个海盗的投票情况就一目了然了，2 号和 5 号投赞成票，3 号和 4 号投反对票，2 号的方案因为有半数的人同意而通过。也就是说，在这种情况下，金币的分配方案为 98 : 0 : 0 : 2。

再往前推，我们看看 1 号到 5 号都在时，分配方案是什么样的。通过前面的分析，我们知道，假如 1 号海盗被扔进大海，由 2 号提出方案的话，3 号海盗和 4 号海盗什么都得不到。因此 1 号海盗的分配方案就应该从处于劣势的 3 号海盗和 4 号海盗入手，分给 3 号海盗 1 枚金币，分给 4 号海盗 1 枚金币，方案是 98 : 0 : 1 : 1 : 0。3 号、4 号和 1 号都会同意这一方案，很显然，就算 2 号和 5 号反对，这个方案依然会通过。

最终的结果虽然难以置信，但却合情合理。表面上看来，1 号是最有可能被喂鲨鱼的，但他不但消除了死亡威胁，还牢牢地把握住先发优势，并最终获得最大的收益。而 5 号看起来最安全，没有死亡的威胁，甚至还能坐收渔翁之利，但结果只能保住自己的性命，连一枚金币分不到。

我们在这里主要看重这种分析问题的方法，即倒推法。而在博弈学上，我们称其为“海盗分金”博弈模式。

知道上面这个模式，我们就很容易理解企业中的一把手，为什么总是和会计以及出纳们打的火热，而京城对2号人物不冷不热——因为2号人物总是野心勃勃地想取而代之，而公司里的小人物则没那么大野心。

🌵 | 路径依赖博弈

4 英寸又 8.5 英寸，这是现代铁路两条铁轨之间的标准距离，这一数字是怎么来的呢？

早期的铁路是由建电车的人负责设计的，电车所用的轮距标准就是 4 英寸又 8.5 英寸；那电车的轮距标准数字又是怎么来的呢？因为早期的电车是由以前造马车的人负责设计的，造马车的人显然很慵懒，直接把马车的轮距标准用在了电车的轮距标准上；那么马车的轮距标准又是怎么来的呢？因为英国马路辙迹的宽度就是 4 英寸又8.5 英寸，所以马车的轮距也就是这个数字，不然的话，马车的轮子就适应不了英国的路面；这些辙迹间的距离为什么又是这个数字呢？因为它是由古罗马人设计的；为什么古罗马人会用这个是数字呢？因为整个欧洲的长途老路都是由古罗马人为军队铺设的，而罗马战车的宽度就是 4英寸又 8.5 英寸，在这些路上行驶就只能用这种轮宽的战车；罗马人的战车轮距宽度为什么是这个数字呢？因为罗马人的战车是用两匹马拉的，这个距离就是并排跑的两匹马的屁股的宽度。

后来，美国航天飞机燃料箱的两旁有两个火箭助推器，是用来为航天飞机提供燃料的。这些推进器造好之后是用火车来运送的，途中要经过一些隧道。很显然，这些隧道的宽度要比火车轨道宽一点。由此看来，铁轨的宽度竟然决定了火箭推助器的宽度。我们在上面已经提过，铁轨的宽度是由两匹马屁股的宽度决定，这么说，美国航天飞机火箭推注器的宽度竟然与马屁股有关。

其实，在我们现实生活中，也有传承多年的东西。比如说中秋节送月饼，为什么赠送月饼，而不是其他什么东西呢？因为今年相互赠送月饼，是因为他们去年就相互赠送月饼。

这是日常生活中的一种普遍现象，在博弈论中，我们称之为“路径依赖”。

资料来源：
[1] 翟文明.博弈论[M].中国华侨出版社.