思维周刊.png



摘要:本周主要学习一下博弈论以及生活中的博弈例子。


🌵 | 什么是博弈论


博弈论是指双方或者多方,在竞争、合作、冲突的情况下,充分了解各方信息,并依此选择一种能为本方争取最大利益的最优决策的理论。

需要注意的是,【博弈】与【博弈论】是不同的概念,博弈的字面意思是指赌博和下围棋,用来比喻为了利益进行竞争。自从人类存在的那一天开始,博弈便存在。我们身边无时无刻不在上演着一场场的博弈。而博弈论则是一种系统的理论,属于应用数学的一个分支。可以说博弈中体现着博弈论的思想,是博弈论在现实中的体现。

经济学史上有三次伟大的革命,分别是:【边际分析革命】,【凯恩斯革命】和【博弈论革命】,博弈论为人们提供了一种解决问题的新方法。

在博弈论中,最著名的一个例子便是“囚徒困境”。


🌵 | 囚徒困境

有一天警局接到报案,一位富翁被杀死在自己的别墅中,家中的财物也被洗劫一空,经多方调查,警方最终将嫌疑人锁定在杰克和亚当的身上。因为事发当晚,有人看到他们两个神色慌张地从被害人家中跑出来,警方到两人的家中进行搜查,结果发现了一些被害人家中失窃的财物,于是将二人作为谋杀和盗窃嫌疑人拘留。但是到了拘留所里面,两人都一口否认自己杀过人,他们称自己只是路过那里,想进去偷点东西,结果进去的时候就发现主人已经被杀了,于是他们随便拿了一点东西便离开了。

这样的解释不能让人信服,再说,谁都知道在判刑方面,杀人要比盗窃严重的多。警察决定将二人隔离审讯。

隔离审讯的时候,警察告诉杰克,尽管你们不承认,但是我们知道人就是你们两个杀的,事情早晚会血落石出。现在我给你一个坦白的机会,如果你坦白了,亚当拒不承认,那你就是主动自首,同时协助警方破案,你将被立即释放,亚当则要坐 10 年牢;如果你们都坦白了,那么每个人坐 8 年牢;都不坦白的话,可能以入室盗窃罪被判刑,每人 1 年。如何选择你自己想一想吧!同样的话,警察也说给了亚当。

一般人可能认为杰克和亚当都会选择不坦白,这样他们只能以入室盗窃的罪名被判刑,每人只需坐 1 年牢,这对于两个人来说是最好的一种结局。可结果会是这样吗?答案是否定的,两人都选择了不招供,结果各被判了 8 年。

事情为什么会这样呢?杰克和亚当为什么会做出这样“不理智”的选择呢?其实这种结果正是两人的理智所造成的。我们先看一下两人坦白与否及其结果的矩阵图。

亚当
坦白 不坦白
杰克 坦白 (8,8) (0,10)
不坦白 (10,0) (1,1)

当警察把坦白与否的后果告诉杰克的时候,杰克心中就会开始盘算:坦白对自己有利,还是不坦白对自己有利?杰克会想:如果选择坦白,要么当即释放,要么同亚当一起坐 8 年牢;要是选择不坦白,虽然可能只做 1 年牢,但也可能坐 10 年牢。虽然每人都坐 1 年牢是最好的结局,但是由于他们是被分开审讯的,信息不通,所以谁也无法保证对方是否会选择坦白。选择坦白的结局是 8 年或 0 年,选择不坦白的结局是 10 年或 1 年。在不知道对方选择的情况下,选择坦白对自己来说是一种优势策略,于是杰克会选择坦白。同时亚当也会这样想。最终的结局便是两个人都选择坦白,每人都要坐 8 年牢。

这就是著名的“囚徒困境”模式,是博弈论中最著名的一个模式。其中,杰克和亚当都选择了对自己最有利的策略,可最后得到的却是最差的结果。

从“囚徒困境”当中,我们可以得到这样的启示:

  1. 人际交往的博弈,中单纯的利己主义者并不是总会成功,有时候也会失败并且重复,博弈次数越多,失败的可能性就越大。
  2. 当今的社会环境下,遵循规则和合作比单纯的利己主义更能获得成功。

🌵 | 博弈四要素

博弈一般包含4个基本要素:

🥦 至少有两个参与者

博弈论的参与者又被称为决策主体,也就是在博弈中制定决策的人。没有参与者也就不会有博弈,且参与者至少为两人。博弈必须有对象。好比是做生意,只有买方没有卖方,或者是只有卖方没有买方,都做不成生意。有两个参与者的博弈被称为“二人博弈”,有多个参与者的博弈,被称为“多人博弈”。参与者在博弈中的表现便是制定决策与对方的决策抗衡,并为自己争取最大利益。参与者之间的关系是相互影响的,自己在制定策略的时候,往往需要参照对方的策略。

🥦 利益

从博弈论定义中,我们知道,双方或者多方进行博弈的最终目的,都是为自己争取最大利益。因此,利益是博弈中必不可少的一个要素。正是因为双方有着各自不同的利益,所以才会产生博弈。如果双方的利益相同,就不存在博弈了。
利益是一个抽象的概念,不仅仅是指钱,还可以是在一定时间段内锁定哪个电视频道,可以是指战争的胜利、获得荣誉、赢得比赛等,但是有一点 ,必须是决策主体在意的东西才能称之为利益。

🥦 策略

在博弈中,决策主体根据获得的信息自己的判断,制定出一个行动方案,这个行动方案也是策略。通俗地讲,策略就是指决策主体作出的用来解决问题的手段,计谋,计策。
博弈论的关键在于制定一个能帮助本方获取最大利益的策略,也就是最优策略。由此可见,策略是博弈论的核心,关系着最后的胜败得失。博弈,也可以看作是各方策略之间的较量,因此有人把博弈论称为“对策论”。
策略必须要有选择性,只有一种选择,那就不是策略了。如果一个犯人被抓,但是他的同伙没有落网,这时他有“供出同伙”和“不供出同伙”两种选择,同时他也有两种策略:供出同伙可以少判几年,但是出狱后有被同伙报复的危险;不供出同伙的话就得多坐几年牢。如果当时他是一个人作案,没有同伙,并且证据确凿,无论他招认还是不招认都将被判刑,这时候他就没有选择,没有选择,也就没有策略,只得乖乖的接受判罚。

🥦 信息

利益是博弈的目的,策略是获得利益的手段,而信息就是制定策略的依据,想要制定出战胜对方的策略就要获得全面的信息,对对方有更多的了解。现在无论是商场还是战场,可以说打的都是一场信息战。信息对于博弈双方来说非常重要,只有掌握了准确全面的信息,才能做出准确的判断。


🌵 | 负和博弈

负和博弈是一种所得小于所失,结果总和为负的博弈行为,也就是一种两败俱伤的博弈。

两败俱伤,是博弈中最坏的一种结果,每一位参与者的收益都小于损失,都没有占到便宜。人们可能会想,理智的人是不会做出这种事情的。事实上,人们经常将自己和对手置于两败俱伤的困境之中。战争就是最典型的负和博弈。

🥦 木匠与画家的故事

在印度流传着这样一个故事,印度北部有一位木匠,技艺高超,绝活是雕刻各种人的模型,尤其是他雕刻的侍女,栩栩如生,不仅长得漂亮还会行走,外人根本分不清真假。印度南部有一位画家,画技高超,最擅长的便是画人物。

有一天北部的木匠请南部的画家来家中做客吃饭,木匠让自己制作的木人侍女出来侍奉画家,端菜端饭,斟茶倒酒,无微不至。画家不知道这个是木人,只见这位侍女相貌俊俏,侍奉周到,便想与她搭腔,木人不会说话,画家还以为是她在害羞。木匠看到了这一幕,便心生一计,想捉弄一下画家。

晚饭过后留木匠在家过夜,并安排侍女夜里伺候画家。画家非常高兴,他等木匠走后,便细细观察这位侍女。灯光下侍女愈发好看,但是画家怎么与她说话她都不回声,最后画家便想去伸手拉她,这时才发现侍女原来是个木人。顿感羞愧万分,原来自己上了木匠的当。画家越想越生气,决定要报复木匠,于是他在墙上画了一幅自己的全身像,画中的自己披头散发,脖子上还有一根通向房顶的绳子,看上去像是上吊的样子。画好之后,他便躲到床底。

第二天,木匠见画家迟迟不起床,便去敲门。敲了一会儿也不见画家回应,便从门缝中往里看,隐隐约约看到画家上吊了,木匠吓坏了,赶紧撞开门,去解画家脖子上的绳子,等他摸到绳子之后才发现是一幅画,画家这时候从床底钻出来,对着木匠哈哈大笑,木匠十分气愤,认为画家这个玩笑开得太大了,画家则责怪木匠昨晚羞辱自己,说着说着两人便厮打起来。

这是一个典型的人际交往中的负和博弈。原本两位应该惺惺相惜,把酒言欢,没想到最后结局却是两败俱伤,虽然说这只是一个故事,但还是能给我们带来很多启示。冲突的起源在于木匠用木人侍女戏弄画家,画家发现后,又选择了报复。戏弄对方和报复对方,是造成这场负和博弈的主要原因。

人是群居的高等动物,只要生活在这个世界上,就免不了同其他人交往,这种交往关系就是人际关系。由于每个人都有自己的追求都有自己的利益,可能是物质方面的,也可能是精神方面的,因此交际中就免不了要发生冲突。冲突的结局跟博弈的结局一样,也有三种:或两败俱伤,或一方受益或共赢。两败俱伤,是最糟糕的一种情况,有过这种经历的人一般会选择反目成仇,互不往来。


🌵 | 零和博弈

零和博弈是指,在严格的竞争下,一方收益等于另一方的损失,总和为零。

零和博弈,最通俗易懂的例子就是赌博。赌场上,有人赢钱就肯定有人输钱,而且赢的钱数和输的钱数相等。就跟质量守恒定律一样,每个赌徒手中的钱在不停地变,但是赌桌上的总和却是不变的。负和博弈也是如此,博弈双方之间的利益有增有减,但是总的利益是不变的。

零和博弈的特点在于,参与者之间的利益是存在冲突的

🥦 教室与施工的故事

让我们来看一下电影《美丽心灵》中的一个情景。

一个炎热的下午,纳什教授到教室去给学生们上课,窗外楼下有工人正在施工,机器产生的噪音传到了教室中,不得已,纳什教授将教室的窗户都关上,以阻止这种刺耳的噪音。但是关上窗户之后,就面临着一个新的问题,就是教室里面太热了。学生们开始抗议,要求打开窗户,纳什对这个要求断然拒绝,他认为教室的安静比天气炎热更重要。

让我们来看一下这场博弈:

假设打开窗户,同学们得到清凉,解除炎热,他们得到的利益为 1,但是开窗就不能保证教室安静,纳什得到的利益就是 -1;如果关上窗户,学生们会感觉闷热不舒服,学生得到的利益为 -1,而纳什得到了自己想要的安静,纳什得到的利益为 1。总之,无论是开窗还是不开窗,双方的利益之和均为 0,说明这是一场零和博弈。

那么难道这个问题就没有解决的方案了吗?

当大家准备忍受纳什的选择时,一个漂亮的女同学站了起来,她走到窗户边上,打开窗户。纳什显得对此不满,想打断她(这其实是博弈中参与者对自己利益的保护),但是这位女同学打开窗户后,对楼下施工的工人们说:“嗨!不好意思,我们现在有点小问题,关上窗户,屋里太热,打开窗户又太吵,你们能不能先到别的地方施工,一会儿再回来,大约45分钟。”楼下的工人说没问题,便选择了停止施工。问题解决了,纳什用赞许的眼光看着这位女同学。

让我们来分析一下,此时外面的工人已经停止了施工,如果选择开窗大家将既享受到清凉,又不会影响安静;如果选择关窗,大家只能得到安静,得不到清凉。这个时候,纳什与学生们都会选择开窗,因为他们此时的利益不再冲突,而是相同的,所以他们之间已经不存在博弈。

这个故事告诉我们,解决负和(零和)博弈的关键,在于消除双方之间关于利益的冲突,利益不冲突并不存在博弈。


🌵 | 正和博弈

正和博弈就是,参与各方本着相互合作,公平公正,互惠互利的原则来分配利益,让每一个参与者都得到满意的结果,双方的利益都增加,总和大于 0。

博弈中发生冲突的时候,充分了解对方,取长补短,各取所需,往往会使双方走出负和博弈或者是零和博弈,实现合作共赢。

🥦 蛋清与蛋黄

有这样一个例子:一对双胞胎姐妹要分两个煮熟的鸡蛋。妈妈分她们每人一个,姐姐只喜欢吃蛋清,所以她只吃掉了蛋清,扔掉了蛋黄;相反妹妹只喜欢吃蛋黄,便把蛋清扔掉了。这一幕被他们的爸爸看在眼里,下次分鸡蛋的时候,爸爸分给姐姐两个蛋清,分给妹妹两个蛋黄,这样既没有浪费,每个人又多吃到了自己喜欢的东西。


🌵 | 纳什均衡

诺贝尔经济学奖获得者萨廖尔森曾经说过:“如果你想把一只鹦鹉训练成经济学家,只需要让它掌握两个词语:供给需求。”后来博弈论专家坎多瑞又补充:“想成为经济学家只懂得供给、需求还不够,还需要多掌握一个词,那就是‘纳什均衡’”。

“纳什均衡”的概念来自纳什的两篇论文《n 人博弈中的均衡点》和《非合作博弈》,纳什在论文中介绍了合作性博弈与非合作性博弈的区别,并给出了纳什均衡的定义。

“纳什均衡”简单来说就是,多人参加的博弈中,每一个人根据他人的策略制定自己的最优策略,所有人的这些策略组成一个策略组合,在这个策略组合中,没有人会主动改变自己的策略,那样会降低他的收益,只要没有人做出策略的调整,任何一个理性的参与者都不会主动改变自己的策略,这个时候所有参与者的策略便达成了一种平衡,这种平衡便是“纳什均衡”。

这里就不列出那时均衡的数学表达式了,因为如果你的数学不够好,这串数学表达式会让你阅读起来非常有难度。

“纳什均衡”主要用来研究非合作博弈中的均衡,因此也被称为“非合作博弈均衡”。

有人把纳什均衡比喻成锅里的乒乓球,如果你把几个乒乓球放到锅里,它们便会向锅底滚去,并在锅底相碰撞,最后停住不动的时候,便达成了一种平衡。这个时候如果动了其中的一个,其他乒乓球便会受到影响。如果想要保持住这种平衡,就不能动其中任何一个乒乓球,一直保持下去。在这个比喻中,乒乓球代表着各参与者的策略,乒乓球最后停留在锅底形成的平衡便是“纳什均衡”。

一场博弈中,并不一定只有一个“纳什均衡”,但是均衡之间有好坏之分。比如“囚徒困境”中两名囚犯同时选择不坦白,得到的均衡便是好的均衡;同时选择不坦白,得到的均衡便是坏的均衡。好的均衡的结果是双方受益,坏的均衡的结果是双方亏损,或者受益没好均衡那样多。纳什均衡中各方策略的制定都是对对方策略的最佳反应,以为自己争取最大的利益为目的,好均衡与坏均衡都是如此。


🥦 身边的纳什均衡

🥑 价格大战

商场之间的价格战屡见不鲜,尤其是家电之间的价格战,无论是冰箱、空调,还是彩电微波炉,一波未息,一波又起。这其中,最高兴的就是消费者了。仔细分析就可以发现,商场每一次价格战的模式都是一样的,其中都包含着纳什均衡。

假设某市有甲、乙两家商场,国庆假期将至,正是家电销售的旺季,甲商场决定采取降价手段促销。降价之前,两家的利益均等,假设是(10,10)。甲商场想,我若是降价,虽然单位利润会降低,但销售量肯定会增加,最终仍会增加收益,假设增加为 14。而对方的一部分消费者被吸引到了我这边,利润会下降为 6。如果同时降价的话,两家的销量都是不变的,但是单位利润的下降会导致总利润的下降,结果为(8,8)。两个商场降价与否的最终结局,如表所示。

商场乙
降价 不降价
商场甲 降价 (8,8) (14,6)
不降价 (6,14) (10,10)

从表中可以看出,两个商场的价格大战在博弈中有两个纳什均衡,同时降价与同时不降价,也就是(8,8)和(10,10)。这其中(10,10)是好均衡。按理说,其中任何一方,没有理由在对方降价之前决定降价,那这里为什么会出现价格大战呢?我们来分析一下。

选择降价之后的甲商场有两种结果:(8,8)和(14,6)。是甲商场的优势策略,可以得到高于降价钱的利润,即使得不到这种结果,最坏的结果也不过是前者,即(8,8),自己没占便宜,但是也没让对手占便宜。

而乙商场在甲商场做出降价策略之后,自己降价与否都将会有两种结果:(8,8)和(6,14),降价之后虽然利润比之前的 10 有所减少,但是比不降价的 6 要多,所以乙也只好选择降价,最终双方博弈的结果停留在(8,8)上面。

其实最终博弈的结果是双方都能提前预料到的,那他们为什么还要进行价格战呢?这是因为多年价格大战恶性竞争的原因,往年都要进行价格大战,所以到了今年他们知道,自己不降价也得被对方逼得降价,总之早晚得降,所以晚降不如早降,不至于落于人后。


🥑 垃圾邮件

我们时常会发现自己的电子邮箱中收到一些垃圾邮件,大部分人的做法是看也不看直接删除。或许你不知道这些令人厌恶的垃圾邮件中,也包含着一种“纳什均衡”。

垃圾邮件的成本极低,我们假设发 1 万条只需要 1 元钱,而公司的产品最低消费额为 100 元。这样算的话,发 100 万条垃圾邮件,需要的成本是 100 元,而这 100 万个收到邮件的人中,只要有一个人相信了邮件中的内容,并成为其客户,公司就不会亏本。如果有两个人订购了其产品,公司就会盈利,这是典型的人海战术。现实情况是,总有一小部分人会通过垃圾邮件的介绍成为某公司的消费者。

很多人觉得垃圾邮件不会有人去看,也有商家觉得这是一种非常傻的销售手段,从几百万人中发掘几个或者十几个客户,简直不值得去做。但是只要挖掘出两个客户,公司就有盈利,再说这种销售手段非常简便,省时省力,几乎不用什么成本,所以只要有一家企业借此盈利,其他没有发送垃圾邮件的企业便会后悔,立即加入垃圾邮件发送战中。我们来看一下其中的均衡。

发送 不发送
发送 (1,1) (1,0)
不发送 (0,1) (0,0)


通过这个图表,我们可以看出,垃圾邮件是如何发展到今天这一步的。在最开始没有这种销售手段的时候,商家之间在这一方面是均衡的,即(0,0)。后来有的商家率先启用垃圾邮件销售方式,此时不采用邮件销售的企业之间的利益关系对比成了(1,0)。最后,没有采用的企业发现里面有利可图,于是跟进,便达成了现在的纳什均衡(1,1)。
对于商家来说,这固然是一种好的均衡,但是作为被动的收件人来说,这次是一种坏的均衡,因为几乎没有人会喜欢自己的电子邮箱里塞满了垃圾邮件。


🌵 | 将对手拖入困境

“囚徒困境”是一把双刃剑,如果陷入其中可能会非常被动,同样如果我们能够将对手陷入其中,便会让对手被动,我们掌握主动。在“囚徒困境”这个博弈模式中,这一点就得到了很好的体现,其中警察设下了一个“困境”,将两名囚犯置身于其中,完全掌握了主动,最终得到了自己想要的结果,使两名罪犯全部招供。

但是“囚徒困境”毕竟只是一种博弈模型,博弈模型是现实生活的抽象和简化模型能反映出一些现实问题,但现实问题要远比模型复杂,模型中每一个人有几种选择,每种选择会有什么后果,这些我们都可以得知,但在现实生活中这几乎是不可能的,因为现实中影响最后结果的干扰因素太多了,正因为现实中干扰因素太多,为人们创造了一种条件,可以设计出困住对手的“囚徒困境”,让对手陷入被动。

战国策中记载了一个关于伍子胥的故事,故事中伍子胥运用的恰好就是这一策略。

年轻时的伍子胥性格刚强,文武双全,已经显露出了后来成为军事家的天赋。伍子胥的祖父、父亲和兄长都是楚国的忠臣,但是不幸遭到陷害,被卷入到太子叛乱一案中,最终伍子胥的父亲伍奢和兄长伍尚被处死。

伍子胥只身一人逃往吴国,怎奈逃亡途中伍子胥被镇守边境的斥候捉住,斥候准备带他回去见楚王,邀功请赏。危急关头,伍子胥对斥候说:“且慢!你可知道楚王为什么要抓我?”斥候说:“因为你家辅佐太子叛乱,罪该当诛。”伍子胥哈哈大笑了几声,说道:“看来,你也只是知其一不知其二。实话告诉你吧,楚王杀我全家,是因为我家有一颗祖传的宝珠,楚王要我们献给他,但是这颗宝珠早已丢失,楚王以为我们不想献上,所以杀了我的父亲和兄长,他现在认为这颗宝珠在我手上,于是派人捉拿我,我哪里有什么宝珠献给他?如果你把我押回去献给楚王,我就说我的宝珠被你抢走了,你还将宝珠吞到了肚子里,这样的话,楚王拿到了宝珠,会将你的肚子割破,然后将肠子一寸一寸的割断,即使找不到宝珠,我死之前也要拉你做垫背的。”还没等伍子胥说完,斥候已经被吓得大汗淋漓,谁都不想被别人割破肚皮,把肠子一寸寸割断,于是他赶紧将伍子胥放了,伍子胥趁机逃回了楚国。

在这个故事中一开始伍子胥处于被动,但是他非常机智,编造了一个谎言,使出了一个策略,将斥候置于一个困境中。这样他化劣势为优势,化被动为主动,很快扭转了局面。我们来看一下伍子胥使出这个策略之后,双方将要面临的局面。下面是这场博弈中双方选择和结局的矩阵图。

斥候
押送 释放
伍子胥 污蔑 (死,死) (活,活)
不污蔑 (死,活) (活,活)

从图中我们可以很清楚的看出,斥候被伍子胥拖入了一个困境,这只是斥候眼中的情况分析,因为现实中根本不存在宝珠这一说,这都是伍子胥编造出来的。伍子胥有言在先,如果他被押送回去,将会污蔑斥候,抢了他的宝珠,斥候会想,到时候,自己百口难辩,只有死路一条。想要活命,只有将伍子胥释放,这正中伍子胥下怀。

当人们面对危险的时候,大都抱着“宁可信其有,不可信其无”的态度。谁都不想让自己陷入麻烦,陷入困境,伍子胥正是抓住人的这一心理,才敢大胆的编造谎言来欺骗斥候,使自己摆脱困境。

这是一个很典型的将自己的困境转化为对方的困境,将自己的劣势转化为优势,将自己的被动转化为主动的故事。这种情况类似于你陷入沼泽的时候,紧紧抱住敌人的大腿,迫使他与你采取合作,帮助你成功逃脱困境。


🌵 | 制造信息不对称

唐朝时期,有一位官员接到报案,是当地一个庙中的和尚们控告庙中的主事僧,贪污了一块金子。这块金子是一位施主赠予寺庙,用于修缮庙宇用的,这些和尚们振振有词说,这块金子在历任主事僧交接的时候都记在账上,但是现在却不见了,他们怀疑是现在的主事僧占为己有,要求官府彻查。后来经过审讯,这位主事僧承认了自己将金子占为己有,但是当问到这块金子的下落时,他却支支吾吾说不出来。

这位官员在审案过程中,发现这位主事僧为人和善宽厚,怎么看都不像一个作奸犯科的人。这天夜里他到大牢中去看望这位僧人,只见他在面壁念佛,他问起这件事的时候,这位僧人说:“这块金子,我从未谋面,寺里面的僧人想把我排挤走,所以编造了一本假账来冤枉我,他们串通一气,我百口莫辩,只得认罪。”听完之后,这位官员说:“这件事让我来处理,如果真的如你所说,你是被冤枉的,我一定还你一个清白。”

第二天这位官员将这个寺庙中历任主事僧都召集到衙门中,然后告诉他们,既然你们都曾见过这块金子,那么你们肯定知道它的形状,现在我每人发给你们一块黄泥。你们将金子的形状捏出来,说完之后这些主事僧被分别带进了不同的房间,事情的结果可想而知,原本就凭空编造的一块金子,谁知道他的形状?最后当历届主事僧们拿着不同形状的黄泥出来的时候,这件案子立刻真相大白。

这个故事中的官员采取的策略是有意地制造信息不平等,使得原本主事僧们之间的合作关系不存在,每一个人都不知道别人是怎么想的,这样的做法很常见。


🌵 | 走出“囚徒困境”

🥦 合作,合作,还tm是合作

在“囚徒困境”模式中,有一个比较重要的前提,那便是双方要求被隔离审讯,这样做,是为了防止他们达成协议,也就是防止他们进行合作,如果没有这个前提,“囚徒困境”也就不复存在。由此可见,合作是走出“囚徒困境”的最有效手段。

欧派克(OPEC)是博弈中用合作方式走出困境的一个典范。

欧派克是石油输出国际组织的简称,1960 年 9 月,伊朗,沙特阿拉伯,科威特,伊拉克,委内瑞拉等主要产油国在巴格达开会,共同商讨如何应对西方的石油公司,如何为自己带来更多的石油收入,欧派克就是在这样的背景下诞生的。后来亚洲,拉丁美洲,非洲的一些产油国也纷纷加入进来,他们都想通过这一世界上最大的国际性石油组织,为自己争取最大的利益。欧派克成员国遵循统一的石油政策,产油数量和石油价格都由欧派克调度。当国际油价大幅增长的时候,为保持出口量的稳定,欧派克会调度成员国增加产量,将石油价格保持在一个合理的水平上;同样,当国际油价大幅下跌的时候,欧派克会组织成员国减少石油产量,以阻止石油价格继续下跌。

我们假设没有欧派克这样的石油组织将会出现什么样的情况?那样的话,产油国家将陷入“囚徒困境”,世界石油市场将陷入一种集体混乱状态。

首先是价格上的囚徒困境。如果没有统一的组织来决定油价,而是由各产油国自己决定油价,那各国之间势必会掀起一场价格战,这一点类似于商场之间的价格战博弈。一方为了增加收入,选择降低石油价格,其余各方为了防止自己的市场不被侵占,选择跟着降价,最终的结果是两败俱伤。即便如此,也不能退出,不然的话一点利益也得不到。囚徒困境将各方困入其中,动弹不得。

其次,产油量也会陷入囚徒困境。若是价格下降了,还想保持收益甚至增加收入的话,就势必选择增加产量。无论其他国家如何选择,增加产量都是你的最优策略。如果对方不增加产量,你增加产量,你将占有价格升降的主动权,若是对方增加产量,你就更应该增加产量,不然你将处于被动的地位。

于是,我们就应该明白欧派克的重要性了。欧派克解决了各石油输出国之间恶性降价竞争和恶性增加产油量的问题,带领各成员国走出了囚徒困境,欧派克能做到这一点的关键就在于合作。

合作,将非合作性博弈转化为合作性博弈。这是博弈按照参与方之间是否存在一个对各方都有效的协议所进行的分类。非合作性博弈的性质是,帮助你如何在博弈中争取更大的利益;而合作性博弈解决的主要是,如何分配利益的问题。在“囚徒困境”模式中,两名罪犯被隔离审讯,他们每个人都在努力做出对自己最有利的决策,这种博弈是非合作性博弈;若是允许两人合作,两人便会商量如何分配利益,怎样选择会给双方带来最大的利益,这时的博弈转化为合作性博弈。将非合作性博弈转化为合作性博弈,便消除了“囚徒困境”,这个过程中发挥重要作用的电视合作。


🥦 重复性博弈

有这样一种现象,我们经常可以见到:出去旅游的时候,旅游景点附近的餐馆,做的菜都不怎么样。这样的餐馆大都有一些共性,菜难吃,而且价格高。这样的地方去吃一次就绝不会有第二次了。既然这样,这些餐馆为何不想办法改善一下呢?仔细一想你就会明白,他们做的都是一次性买的,不靠回头客来盈利,靠的就是源源不断来旅游的人。

类似上面这样的事情,我们身边还有很多。这些事情,向我们说明了一个道理:一次性博弈中不可能产生合作,合作的前提是重复性博弈。一次性博弈对参与者来说,只有眼前利益,背叛对方对自己来说最优策略;而重复性博弈中,参与者会考虑长远利益,合作便成为可能。

关于重复性博弈与合作的关系,我们总结两点:

  1. 理性人不会选择,只与别人做一次生意,一锤子买卖。因为这样做的结果只能是短期获利,从长远来看会吃亏。考虑到长远利益,理性人会选择与对方合作,进行重复性博弈
  2. 合作的基础是长远性的交往,有共同的未来利益才会选择持续合作,没有未来利益就没有合作。

并不是只要博弈次数多于 1 就会产生合作。在无限次重复博弈情况下,合作才是稳定的。也就是说,想要双方合作稳定,博弈必须永远进行下去,不能停止。其中的原因有两点。

  1. 能带来长久利益,比如开餐馆时的回头客。
  2. 能避免受到报复,你若是背叛对方,一定会招致对方在下一次博弈中的报复。

当我们知道某一次博弈是最后一次的时候,我们就不会再考虑长久利益,也不会有下次博弈中对对手报复的担忧。这时背叛对方又成了博弈各方的最优策略。我们假设,你决定明天就将餐馆关闭或转让给他人,那么今天晚上你与顾客之间便是最后一次博弈,这个时候虽然餐馆老板基本上不会这样做,但是从博弈论的角度来说,做菜的时候偷工减料,提高菜价对你来说是最好的一种策略。

美国著名博弈论教授罗伯特·艾克斯罗德教授曾经做过这样一个有名的实验:这个实验非常简单,选择一群人让他们扮演“囚徒困境”中的其中一位囚犯的角色,将他们每一次的选择统计好之后再输入电脑里。最开始是一次性博弈,只有一次选择,结果不出意料,参与者都选择背叛对方。后来博弈次数不断增多,直至双方的博弈次数增加到了 200 次,最后统计结果告诉我们,无论是 2 次还是 200 次,只要是有限重复博弈,而不是无限重复博弈,博弈参与者都会选择背叛对方。

由于人的寿命是有限的,博弈总有结束的那一天,也就是说世界上没有什么博弈是无限重复的,按照上面的说法合作就变得永远不可能。但是,我们知道,现实生活中情况并非如此。因为没有人知道这些博弈会在哪一天结束,不知道何时结束的博弈就相当于无限重复博弈,便会催生出合作。


🥦 不要让对手看到尽头

有这样一个笑话,一个年轻人去外地出差,这期间他觉得自己头发有点长,便准备去理发,旅店老板告诉他,这附近只有一家理发店,刚开始理的还不错,但是因为只有他一家店没有竞争,所以理发师理发越来越草率。人们也没有办法选择,只得去他那里理发。年轻人想了想,笑道:“没事,我有办法。”

年轻人来到这家理发店,果然同旅店老板说的一样。店里面到处是头发,洗头的池子上到处是水锈,镜子也不知道有几年没擦了,脏乎乎的照不出人影。理发师在一旁的沙发上翘着二郎腿,叼着一只烟,正在看报纸。等了足足有三分钟,他才慢悠悠的放下报纸,喝了一口茶,然后问道:“理发呀,坐那吧。”年轻人笑着说,:“我今天只刮胡子,过两天再来理发。”理发师胡乱的在年轻人脸上抹了两下肥皂沫,三下五除二就刮好了。正如旅店老板说的,一点都没错,理发师技术娴熟,但是非常草率,甚至连下巴底下的胡子都没刮到,不过他也没说什么,笑着问道:“多少钱?”“两元。”理发师没好气儿的回答。“那理发呢?”年轻人又问到。“8 元。”年轻人从钱包里拿出 10 元递给理发师,说“不用找钱了。”理发师没见过这样大方的客户,于是态度立刻来了一个 180 度大转弯,笑盈盈地把他送到门外。临走时年轻人说两天之后来理发。

两天过去了,等年轻人再来理发的时候,发现店里面被打扫的干干净净,水池中的水锈也不见了,镜子也被擦得一尘不染。理发师笑呵呵的将年轻人迎进了店内,并按照年轻人的要求给他理发,理的非常仔细认真。理完之后理发师恭敬的站在一边,年轻人站在镜子前面看了看,对理发师的水平非常满意,然后扶了扶袖子就要出门。理发师赶忙凑上前来,说“还没给钱呢。”年轻人装出一脸不解说:“钱不是前两天一起给你了吗?刮脸 2 元,理发 8 元,正好 10 元。”理发师自知理亏,哑口无言,年轻人笑着推门而去。回到旅馆后,旅店老板和住宿的客人都夸年轻人聪明。

故事中聪明的年轻人知道自己是外地人,与当地的理发师之间做的是一锤子买卖,也就是一次性博弈。理发师八成会非常草率,于是他便聪明地将一次性博弈转化为了重复性博弈。也就是将原本一次性就可以完成的理发加刮脸,分成了两次,并且先刮脸后理发,先小后大,先轻后重。

重复性博弈的特点就在于,第 1 次制定策略时要考虑到预期收益预期风险。这个故事中理发师按理说不会考虑预期收益,因为这里只有他一家理发店,人们别无选择,但是年轻人考虑到了这一点,在第 1 次博弈,也就是刮脸的时候多给了不少钱,让对方感到了预期收益。理发师会想:我给他刮脸,刮的这样草率,他居然给了我那么多钱,下次给他理发理的好一点,他肯定会给更多钱。这样想便中了年轻人的招。

总结一下年轻人成功的关键:首先是将一次性博弈转化为重复性博弈,因为重复性博弈是合作产生的保障;其次是让对方看到未来收益(领导经常用的画大饼),这 2 点我们在买东西讨价还价的时候经常用到,讨价还价的时候,我们经常会说“下次我们还来买这个东西”,或者“我们回去用的好的话,会让同学朋友都来买你的”,这种话大都是随口说出来的,但是其中包含的道理是博弈论中重复性博弈和预期收益。


资料来源:
[1] 翟文明.博弈论[M].中国华侨出版社.