c15翟东升 - 【翟东升】如何诱导国家间的合作与互信？推演博弈论在外交策略上的应用 - 《论》

重复博弈中的最优策略
- 策略特点
“一报还一报”策略在生活中的应用
“一报还一报”策略在实操中的问题
“一报还一报”策略对一国对外战略的启示
评论

https://www.bilibili.com/video/BV1av411Y7Nr
亲爱的观众朋友大家好，欢迎来到我和观视频合作的栏目。那么今天我们想探讨一下这个国与国之间人与人之间的相处之道，

美国密西根大学的政治学教授罗伯特·艾克斯罗德，他在 1980 年代曾经有过一次非常有意思的，我认为非常伟大的研究，就是利用囚徒困境他的博弈的原理，来研究自私的人类何以可能进行合作和相互信任，由此而进一步解答对于个人，对于国家来讲，什么样的处世之道是最合理的这样一系列的问题。

那么要理解他的研究，首先要明确第一个问题——什么叫囚徒困境？
囚徒困境是博弈论中最常见的就是模型，它讲的是甲乙两个罪犯，一块合伙偷东西了，那么这两人被抓住之后被分别提审。
事先他们说好了，我们俩要一起这个攻守同盟，大家都不承认，这样的话最后俩人都没事。

可是，在分别提审时，对甲个人而言，它就面临这样一种选择，要么死扛到底不承认，要么坦白从宽甚至获得奖赏，那么无论乙怎么选择，甲的坦白都能让他自己获得比较好的解决，而且甲也明白乙也面临同样的选择或者诱惑，所以假如这两个人都是自私的，通常这种博弈格局的结果是两个人都各自照顾，是这样一种均衡状态。这里我们不多做展开，不了解的网友请自行上网搜索一下设身处地帮他们计算一下潜在得失。

那第二个问题就更加关键了，就是关于人性的假设，人性是不是自私的，处于囚徒困境中的个体，是不是以自己个人利益的最大化为唯一诉求？

关于这一点，这个生物学其实已经提供了很多的答案，物竞天择，绝大部分生物的基因都是自私的，因为那些愿意牺牲自己来换取别的个体生存概率最大化的，他们的这种基因随着他们的牺牲，都已经灭绝了，所以有人说人不为己天诛地灭。

自私的基因中间，我们发现自然界也的确存在例外，就是存在一些利他主义的基因，能够通过生存竞争繁衍下来，那是什么例外？

最典型的蚂蚁、蜜蜂，它们为了保护集体、保护他人可以牺牲自己。比如

蚂蚁抱团搬家过河，蚂蚁过水面的时候它们是抱团整个一团外表的就淹死了，里边的滚过去就活下来了。
蜜蜂蜇人，它其实是自杀式攻击，因为他这一次他自己就死掉了，是牺牲小我保护大家。

那么是什么原因导致他们的这种利他主义基因能够不灭绝？

他们的共性是同一窝里边的个体之间两两之间基因的共享都达到75%。
一个利他主义的基因，当他牺牲一个个体的时候，他又能换来同窝三分之四个个体生存， 75％乘以三分之四就等于一，三分之四个以上的部分，就是我这个牺牲所赚到的，那么假如说我这个个体的牺牲带来这种利他主义基因的传播概率大于我的牺牲本身。我的牺牲是一，那么更多的个体活下来，所以整体这个基因的存活概率很大。

牺牲一个个体，如果能够换取三分之四个同胞的生存的话，那么这种利他基因就能在生存竞争中胜出。
那么为什么绝大部分物种的兄弟姐妹之间只共享 50％的基因，而这两个物种同窝的可以共享 75％的这个基因？请大家把答案打在公屏上。

那么交代了这两个基本的问题之后，我们就可以看看罗伯特艾克斯罗德教授他的精彩研究了，在他看来每一次人际交往，都可以简化为两种基本模式——合作还是背叛

在人际交往中普遍存在这种囚徒困境，双方明知合作可以带来共赢，但是理性的自私和信任的缺乏，导致合作难以产生。

人们总是希望什么？

对方合作，而我背叛，这样的话，对方做出牺牲，而我获得最大化的收益。所以即便你自己不贪心，你也难以相信对方会跟你一样不贪心，所以这就是这样一种合作，在我们日常生活中间，比较难以产生的原因。

那么这是单次的博弈，但假如说人跟人之间低头不见抬头见，要经常相互在一起生活，一起共生，那么这个时候他这种博弈的格局就不一样了，人们愿意这一次吃掉小亏，以换取下一次对方能够回报我，此时他的双边关系就容易稳定，所以我们会看到熟人社会互相之间是友善的，在一个乡里大家都是讲规矩的，不会胡来的，互相体谅的，互相谦让。

美国数学心理学家阿纳托尔·拉波波特的“以牙还牙”策略被认为是最佳策略。即当你的对手背叛时，在下一回合中你要以小概率时而合作一下，要偶尔从循环背叛的受骗中复原。

重复博弈中的最优策略

在于许多人开展的多次重复博弈中间，是否存在一种为人处世最优的博弈策略呢？

罗德教授首先向全世界不同学科的学者发出邀请，请他们提交各自认为最优的竞争策略，然后通过计算机进行模拟，让这些策略相互两两之间进行重复囚徒博弈的竞赛。每一轮博弈它都有四种可能得分，然后进行反复的重复的博弈之后各自得到一个分值。然后不同的策略，两两之间厮杀之后，多少人的竞赛带来最终每一个策略都会有个总得分。

第一轮，全世界的学者包括数学家，这个物理学家、军事专家、搞计算机的、搞政治的，这些学者提供了 14 个程序，这 14 个程序互相博弈，结果就出现了一个赢家，这个赢家的策略的核心概念叫做 tit for tat 就一报还一报，这个策略获得了第一。

X 罗德教授就把这个情况，告诉了这些参赛者，然后他把这个策略的原理也公布出来，然后邀请更多的学者基于前边的信息再进行第二轮的竞赛。

那么第二轮又有 63 位提交了许多改进的程序，令人惊讶的是什么的第二轮比赛的优胜者居然仍然是一报还一报策略。也就是说，即便告诉你这个策略赢了第一轮，那么多学者试图以此为基础进行改良，那么他们的智慧和努力都是白费的。

那这神奇的一报还一报策略是如何让几十位科学家的智慧相形见拙的？

策略特点

它的内容非常简单，第一步我先假设你是好人，我先跟你合作，然后第二步开始以后就是重复上一步——你怎么对我的，我就怎么对你，就这么简单。

那么如此简单的程序之所以能够在两轮竞赛中都获胜，是因为以下品质或者以下特点使它能够最有效地鼓励其他程序和他进行长期合作。这些品质是什么？

第一，善良的。他首先假设这个世界对我是好的。

第二，可激怒的，他不是老好人，假如他发现对方是个坏蛋的话，它是要报复的。

第三，宽容的，对方跟你进行的恶性的互动之后，如果对方弃恶从善重新又对我好了，那我是宽容的，我又可以原谅你。我再次跟你进行合作，因为我就是在重复你上一次这种行为。

第四，简单，因为它的策略逻辑非常清楚，他就是愿意告诉别人，我这个策略的逻辑就是怎么样。

第五，不妒忌别人的成功，为什么你想他第一步总是合作的，也就是第一步它不可能占人家任何便宜，此后都是重复人家，也不可能比别人获得更多的分。

“一报还一报”策略的必要条件： 1.友善：最重要的条件是策略必须“友善”，也就是说不要在对手背叛之前先背叛。 2.报复：成功的策略必须不是一个盲目乐观者，要始终“报复”。始终合作是一个非常糟糕的选择。 3.宽恕：成功的策略是必须要宽恕。如果对手不继续背叛，他们会一再退却到合作。 4.不嫉妒：就是不去争取得到高于对手的分数，“友善”的策略永远无法得到高于对手的分数。

那么其他各种策略就输在上述这些品质，某些方面做的不够好，在比赛结果中所有的恶意程序，什么叫恶意程序？

第一步就背叛，这种恶意程序都没有进入前十名，就这个世界天道是鼓励善良的。
而某些程序又太过好脾气，就太善良了。所以被人背叛之后，他不立即作出反应，就会鼓励某些狡猾的程序反复占到的便宜，就老好人。

那么某些程序又对过往的关系的好坏太过执着，一旦被别人欺骗一次，他就绝不原谅，绝不宽容，然后从此就反复的跟人家恶性的博弈、对抗，那么所以本来很多能够恢复的关系，就永久性断绝了。

还有一些程序，把自己搞得太复杂了，总是试图通过某种随机的或投机取巧得来占人便宜。尽管在与某些傻程序接触中得到了这个单独的高分，但是一旦碰到个性刚烈的程序，就会陷入互相死磕的这种困境。所以说最后总得分来讲，他们的小聪明都是得不偿失的。

卡bug了

关于这个罗伯特艾克斯罗德的这个有趣的研究，由于时间所限，我建议大家读者们亲自阅读《合作的进化》。这本书牛在两个方面

第一，只要你具备了中国高中的数学水平，你就能读懂这本博弈论的经典著作。
第二，因为博弈重要贡献而获得诺贝尔经济学奖的托马斯·谢林，他就曾经公开表示过艾克斯罗德教授的这项研究、这本著作，比他自己的那个研究更值得诺贝尔经济学奖。

那么自从 1999 年，上个世纪末我拜读了此书之后，我由衷地感叹艾克斯罗德教授他的研究设计的巧妙和研究结论的高明。

“一报还一报”策略在生活中的应用

对上述几个理论结论，我一直是身体力行，从我个人的为人处事。

首先是友善的，假设这个世界上是好人多，而不是坏人多。
其次，是有原则的，是可激怒的，不是老好人；
第三是宽容的，就是得罪过的人，只要他改过自新，我还是可以继续跟他做朋友；
第四，简单，不要搞那么复杂，不要那么多的技巧。

我走过最远的路，是你的套路

第五个，不妒忌朋友的成功。

其实这些信条，本来就是我们生活中常见的为人处世之道，但是用博弈模型这种科学化的结论，来指导我的根本态度，并且把这些信条连接起来作为一种整体性的策略，组合来行使，这是让我自己觉得与众不同的地方。

人跟人之间是如此，国与国之间也差不多。只不过人际之间有比较多的伦理和道德因素，但国家间关系自古以来它就是一种丛林色彩更多一些，权力和利益关系就更加赤裸裸一些。

那么近年来美国的政策解他们在对外政策，尤其对华政策文件中间经常用这个词叫 reciprocity ，reciprocity 翻译成这个互惠，其实是不够准确的，互惠只是它良性一面，它还有报复，就是如果你对我差，我要对你进行报复，他的思想原型就是一报还一报策略，就是罗伯特艾克斯罗德的博弈论的理论发现。

用我们中国话叫做以彼之道，还施彼身，那么有意识的话，是这套策略，它是不怕曝光的，它是阳谋而不是阴谋，而且恰恰需要别人知道你的这几个基本原则。这样才能更好地鼓励对方。你不要耍小心小聪明，你跟我好好合作共赢。

“一报还一报”策略在实操中的问题

然而现实中这个策略运用起来。比这个计算机的程序博弈竞赛，当然要复杂得多。

比如现实中的朋友关系并不总是合作双赢的重复囚徒困境，某些关系是典型的高成本低回报，那原因往往在于对方和自己在能力上不对称的。
其次，面对资源的硬约束，现实中的你总是无法有足够的资源，有足够的时间精力来维持对别人的各种回报。
再其次，如何做到相称他也是一个问题。比如朋友偶然得罪了你，那么你通过行动或者不行动来显示你对此其实是介意的。你自己觉得你这样一种回复是一种相称的警告，但是你的朋友可能会认为你反应过度，小家子气，小题大做；
那么最后回报策略还有一个问题，就是什么假如双方都采取这个策略，而一旦由于误解进入了相互惩罚的恶性循环，那就几乎永无解脱，直到关系彻底断绝，那人跟人成为宿仇，国与国之间兵戎相见，也是有可能的。

那么针对上述问题，我就进行了相应的策略调整，其中一个重要的调整就是重视利用圈子来解决问题。双边关系中的回报，一旦放进了多边关系中进行操作的时候，不少问题就可以迎刃而解。

比如为了 1000 块钱的利益，有人得罪了你，但假如得罪你 1 个人意味着一群人，那我惩罚你的成本就很低了。

我只要告诉大家这家伙借了钱不还，以后你在这个圈子里边身败名裂，没人再敢把钱借给你，那他对你的惩罚力度挺大的，而对我的这个回报或者惩罚你的时间精力的代价其实挺低，认识到这一点，我就非常乐意把我的新朋友介绍给我的老朋友们，因为相当于用一张关系网或者朋友圈来分担了人性中的自私所带来的背叛的诱惑，对你们之间这种脆弱塑料友情的这种冲击力。

同理，在国与国之间的关系中搞多边主义外交就是一个不错的选择。
一个小国可能无法相称的、有效的、可信的报复大国对他的背叛，而但是如果大家都是混在一个圈子里边，一个多边的体系里边，一旦一个大国对其他的相对小的国家进行了违约背叛，那么他就会信用受损。那信用大跌的话，你在整个圈子里边的潜在损失是非常大的。而且一个已经背负了一定的信用压力大国，也就是他跟许多古其他国家进行了互动。

1997年亚洲金融危机爆发，中国做出人民币不贬值的决定赢得了国际声誉。为此后吸引全球制造业纷纷流向中国打下基础，短期的承压为中国换取了长期的繁荣。

而且一个大国，越是积极的利用自己的信任和威望的话，别人就越敢相信他。假如说有一个国家，不太爱给别人明确的承诺的话，那别人反过来也不怎么敢相信他，就如同你从来没有用过信用卡里的钱的话，那么信用卡的透支额度就非常小。

“一报还一报”策略对一国对外战略的启示

那么这个一报还一报 tit for tat 策略，对于许多国家对外战略、发展战略，它也是有启发的。不争局部的得失，不妒忌别国的成功，但最终却能获得最大的成功。中国的开放其实就是这样一个原理。在任何一个双边关系中，中国人都是这么一种平衡，一方面要礼让谦虚大度，另外一方面又是捍卫原则，还有根本利益。

正是这样尽管中国跟世界上大多数国家存在政治制度和意识形态的差异，但是仍然能够做到朋友遍天下，合作的很不错，这是为什么今天中国是将近全球七成国家的最大贸易伙伴的一个原因之一

而反过来有一部分发展的国家，比如说，这个最典型的就是印度，他们的气量比较小，老想着怎么在任何一个双边关系中占便宜，不多占点便宜她就不愿意，那么结果在总体的对外合作上，他就浪费了很多的战略地位和发展机遇。

特朗普执政美国这四年，他的执政方式也犯了其实类似的错误，他就是试图在任何一个双边关系中间要占上风，占便宜不多，占点便宜他不爽，他就要跟你反复的惩罚，互相的升级敌对，那他这种操盘模式就会导致处处受敌，这是他为什么人生中屡次破产的原因之一，他破产了好几次，可能未来也即将要在这也是为什么他执政美国短短四年，美国这个国家的国际信用他的国际地位威望那明显下滑的原因之所在

两个大国之间的战略性合作，比如说中美之间是吧，双方缺乏互信的前提下，如何能够培育出合作和互信来呢？

一个有益的思路就是把一次性的囚徒困境博弈转化成重复博弈和多边博弈。

双边囚徒困境，走到最后基本上都是相互不合作，这是由人性，这是由国际关系的丛林状态这种底层的逻辑所决定的，但是如果能够转变成重复博弈，转变成多边博弈，那么就可以通过回报策略，诱导出相互的妥协和合作，最终培育出信任与和平。

感谢各位这一年的相伴，那么节目从 2020 年的疫情期间开播到现在已经播出了整整 40期了。通过这一年的努力观视频和我的这个合作，我们获得了一共 170 万的粉丝，我原本以为，年轻人对我这样讨论的比较严肃的学术性话题，科普性话题，会没那么感兴趣。

接触这一年，通过这个节目，也让我能够观察到中国年轻人的舆情生态。令我比较惊讶的是这一代的年轻人，政治上向左摆动的速度是非常快的，感谢各位的支持，厚爱赞美和批评，那么也感谢观视频的工作团队的巨大的投入，辛勤的努力。那么说实在话我的节目的一个重要特点就是它不怎么追热点，也不是谈一般性的知识，而主要是我个人研究的一些成果。比如人民币问题，比如说中国地方发展问题，比如说中美关系中欧关系，还比如说欧洲日本等国的高质量发展的经验教训的问题，通过视频谈话的节目形式跟大家来分享来汇报。

所以，就是从我的节目中，大家可能能够感觉到，许多观点都是独特的，非常个人化。当然任何人手里都没有绝对的真理，如果对大家有形成误导的，那么也希望大家包涵

其实我们传播的时候，他的目的不是告诉大家真理，而是说告诉大家这个世界上，我们有不同的研究观点，能够启发大家去进一步的思考，进一步的去批判。当然我个人在过去的十几年里所形成的一些认知一些观点的基本上也回报完了，再说下去可能就会江郎才尽了，为了避免我的节目太水的话，所以这个我打算到这一期，咱们就是最后一期了。

庄子说：相濡以沫不如相忘于江湖。所以，在此跟各位告别，当然了，有许多网友说，那难道就此以后，我们就再也不见面了吗？也不是首先，欢迎大家到人民大学来旁听我的课。另外，我们跟还会推出另外一个短课程主题是人民币国际化货币汇率这样一些主题，我的那门课应该是有非常大的价值的。所以我本人其实是非常希望走高价路线，高价高质路线。但是，考虑到我的许多粉丝，其实还是年轻人年轻家里不一定穷，但问题是年轻人想花的钱总是比他拥有的钱要大得多，所以，我想讲我的课程将会采取一个特殊的定价机制，能够让尽可能多的人来听到我的观点。

好，各位观众再见。

翟东升老师用这个视频作为本系列的完结，其实很有深意的。

互联网环境由于目前平台的不够成熟，对网络环境的维护有限，直接导致精英人士在互联网做分享并不是最优选择。如果仅仅是在网上分享的金钱回报不多，我想也不至于让翟东升教授觉得有多少影响。更深层的原因，是当他在互联网做免费分享时，换来的，更多是【刷梗】，或者对刷梗的点赞，而不是潜下心来认真学习的观众。若是能有很多潜下心学习的观众，【教学相长】。那也能让老师颇感欣慰。正如林毅夫教授曾说的一句话：“得天下英才而教之，是一种荣幸。”

那么在分享的过程中，既不能有财富的积累，又不能有价值的体现。（肉眼可见的学生成长进步）在互联网做分享确实是难进行的。而且这种情况不仅仅是个例，而是普遍现象。即使如金灿荣，沈逸教授开课收费。真正潜下心学习的人，在付费人群中的比例也有限，也难以形成合力。

一个教练，①若不能得到相应的回报，②又不能看到学习者的重视，③也不能形成相应的学习氛围。其实真正愿意传道授业解惑的前辈，是期望②和③能有所转变的。

——所以，后面翟东升教授开课的话，感觉大家或许要有选择的去营造认真学习的氛围，给认真思考的评论点赞，才更能够让前辈感到欣慰。

翟老师是一位非常具有修养的老师！

1、他说了不追求热点。热点就是热度，热度带来流量。翟老师是希望真正想学习的朋友来听课的。

2、翟老师知进退。他说自己已经把研究内容说完了。其实不管一位学者知识储备如何丰富，密集的输出，一定会导致内容质量严重下降。很多学者，包括观视频观网的，已经输出不出什么内容了，但一直在说，不停的说，会发现内容已经非常非常不扎实了，甚至越来越荒谬！这就是只知进而不知退！翟老师是真正做学者的。

喜欢翟老师的原因，不单是仰慕其深厚的学识，更是欣赏其理性谦逊的教学态度。翟老师讲课从不打鸡血，不说废话，不兜圈子，总是用平实质朴的量出真实的观点，关键是敢于预测，敢于将研究的理论放在实践中检验，理想中的学者也不过如此。

这就是孔子主张的以德报德，以直报怨啊，老祖宗早就研究出为人处世的最佳策略了

另外我一直以来并不明白以直报怨的直是什么意思，因为形式上和怨一样，也算是报复。看了视频后恍然大悟，直和怨的根本区别或许就是第三点：如果你改邪归正，我可以不计前嫌，而怨将永无止境

“直”是对事不对人，“怨”是对人不对事

翟东升老师

在《合作的进化》这本书中，讲到了基于博弈论的处世原则
1.友善的，假设世上好人多而不是坏人多
2.有原则的，是可激怒的，不是老好人
3.宽容的，可以原谅改过自新的人
4.简单的处世，不使用太多技巧
5.不妒忌别人的成功

总结一句话：以德报德，以直报怨

囚徒困境，困住的是人心

策略：
积极将朋友拉入自己的朋友圈
如果犯错，就用朋友圈的影响力公开处刑

0830
当自己在某段关系中投入太多，然而他人回报让自己感觉“不对等”时，就会产生抱怨。
本质问题在于，策略特点之三宽容的，对方跟你进行的恶性的互动之后，如果对方弃恶从善重新又对我好了，那我是宽容的，我又可以原谅你。我再次跟你进行合作，因为我就是在重复你上一次这种行为。

自己首先是过于老好人，一直采取忍让。
其次自己过于执着小我，当他人对你道歉后，自己不够宽容，斤斤计较，反而让原本稍微愈合的伤口，撕开的更大。