我的博弈论学习笔记

整理自：2024年4月16日加速内部培训

难度：☆☆☆☆☆

工作相关性：☆☆☆☆☆

推荐度：☆☆☆☆☆

博弈论是商学院教育中的一块基石，与商业和管理工作紧密相连，对于理解市场动态和制定有效策略至关重要。因此，掌握博弈论的基本原理对我们来说必不可少。

在众多关于博弈论的书籍当中，特别推荐迪克西特教授的两部著作：《策略思维》和《妙趣横生博弈论》。

这两本书的内容均源自迪克西特教授在普林斯顿大学教授的博弈论和商业决策课程，采用案例分析的方法，避免了复杂的数学推导，使得博弈论的学习变得更加平易近人。

迪克西特教授是诺贝尔经济学奖的热门人选，他的这两部作品无疑是经典博弈论的入门佳作。

博弈论的应用可以帮助我们揭示和理解一些长期存在的社会现象。有时候，我们可能会对某些看似不合理的社会规则感到不解，甚至认为制定这些规则的人很蠢。

但实际上，这些现象背后往往隐藏着复杂的博弈过程。

信息不对称、承诺不可信或惩罚力度不足等因素，都可能导致某种局面的形成。通过博弈论的分析，我们不仅能够更好地理解这些现象，还有可能找到改变现状的方法。

博弈论的英文是game theory。

博弈就是游戏，游戏都要博弈。

掼蛋也不例外，掼蛋能火爆起来，肯定有他的道理：

门槛不高，很容易学会，但要打得好也并不容易，打得好能享受到胜利的喜悦。

要在信息不对称的情况下做出判断，跟对家配合，跟对手博弈。

掼蛋不但跟博弈产生了联系，也引发对企业家的经营管理的启发。

掼蛋打得好，再加上善于总结提炼，有研究的精神，说不定可以写一篇博士论文，说不定还能拿诺贝尔奖。

博弈论的核心在于游戏规则的理解和遵守。无论是在商业合作还是日常生活中，我们都需要理解并遵循相应的规则。作为游戏的参与者，我们应该领悟游戏精神，尊重规则的必要性，与队友合作，尊重对手。只有这样，别人才会愿意带你玩，并享受游戏带来的乐趣。

如果我们有能力，也可以创造自己的游戏规则，吸引他人参与。我们可以通过博弈的设计，来改变博弈本身。

在商业合作中，我们经常会遇到零和博弈和共建游戏的概念。零和博弈强调竞争，有其特定的规则；而共建游戏则强调合作，也有其规则。

共建游戏的基本原则可以归结为我们公司企业文化的要点：共生共享。

我们与合作伙伴共同拓展市场、共同开班、统一定价，避免价格战，共同维护客户关系。

共建游戏的复杂性在于它既需要合作，又包含竞争，而且合作和竞争的关系是随着时间不断变化的。

但无论怎么变化，最核心的原则还是遵守规则。我们不能因为有人不遵守规则就放任自己也不遵守规则，玩家众多，并不是别人闯了红灯，你就可以闯红灯，不遵守规则最终结果只能是损人损己。

在博弈论中，帕累托最优是一个重要的概念，它代表了一种理想的均衡状态，即在不损害任何玩家利益的前提下，无法再优化当前状况。

与之相对的是帕累托改进，指的是在不损害任何玩家的前提下，至少让一个玩家的状况得到改善。

如果已经达到帕累托最优，那么就不存在帕累托改进的可能性；反之，如果还有改进的余地，就意味着还没有达到帕累托最优。

这两个概念都是以意大利经济学家维尔弗雷多·帕累托的名字命名的，他的“二八原则”（帕累托原则）也是我们熟知的经济法则。

在共建模式下，如果双方能够实现业绩平衡、理念一致、价格体系统一，产品和服务理念趋同，校友的满意认可，那么就构成了双方都期待的均衡状态，且接近帕累托最优。

理想的世界应当追求帕累托最优，也就是说所有博弈玩家都感到满意和快乐。

然而，在现实世界中，大多数均衡并非帕累托最优，因为这种状态往往不够稳定。

我们生活在一个不完美的世界中，市场的微小变动或玩家行为的微小变化都可能打破原有的平衡。而稳定的均衡态才更有可能持久存在。

话说有有一位苏联音乐家乘火车，过程中在看一份乐谱。

邻座的克格勃无法识别乐谱，以为是密码本。

于是将音乐家逮捕，问密码是否他写的。

音乐家大呼冤枉，说是柴可夫斯基写的。

克格勃若有所思，离开了一会儿，随后回到审讯室，对音乐家说：“柴可夫斯基已经招供了，你还是早些坦白吧。”

这就是在EMBA课堂中经常能听到的“囚徒困境”：

两位无法串联的囚徒面临招供或保持沉默的选择。

他们的决定会互相影响彼此的判决结果。

囚徒困境所形成一个四象限的矩阵，是美国经济学家托马斯·谢林的发明。

在一个理想的世界中，两位囚徒如果能心有灵犀，配合默契，他们会坚决选择不招供，不被任何刑讯逼供所动摇。

然而，在我们的不完美世界中，囚徒没有全知视角，他们的互信脆弱，轻易动摇，往往认为对方也不可靠，只要有一丝丝的信任裂缝，信任的大厦就必然会轰然倒塌，最终结果就是都会招供。

在这个不完美的世界，无论对方是否招供，你的最优策略都是招供。这在博弈论里被称为占优策略dominant strategy，也叫做：压倒性策略。

这个策略压倒其他一切策略，不管对手怎么做，这个策略对你来说都是最好的。

反过来说，另外一个选择，也就是不招供，都是一个被压倒性策略dominated strategy，不管对方怎么做，对你来说都是最不好的。

在囚徒困境这个游戏中，你是一个遵守游戏规则的玩家，你很聪明，你很理性，你一定会选择压倒性策略。

当然，你也可以选择搏一把，选择在完美世界里的最优策略，不招供，但在不完美的世界里用完美世界的策略，你也许有个极小的概率碰到对方也是跟你一样想法的人，但大概率，对方会想：只有真的脑子被压坏了才会选择被压倒性策略吧，他选择了压倒性策略，你就会被压倒。

在这个博弈中，两个理性、聪明，都不想被压倒的玩家，都选择了对他们来说是最优的选择，但结果不是帕累托最优，但这个结果是稳定的，任何一方都不会单方面改变策略。

这种情况就是一个纳什均衡，一种博弈的稳定结果，其中每个玩家都在寻求自身利益最大化的前提下达到一种局面，改变策略将会导致损失，所以大家都认命，不再寻求改变。

纳什均衡的概念由美国数学家约翰·纳什提出，他的这一理论贡献使他获得了1994年的诺贝尔经济学奖。

纳什均衡是博弈论中的核心概念，有非常强大的解释力，能够解释现实社会中许多看似不合理的现象。

虽然排队是一种纳什均衡，但这种均衡的实现依赖于每个人都愿意遵守规则。如果有一个人不遵守规则，那么有秩序的均衡就会被破坏，形成无序的均衡。

纳什均衡虽然是博弈的终局，但真实世界是不断变化的，没有真正的终局。

我们可以通过主动改变博弈来追求更好的纳什均衡，但我们的改变可能会触发其他变化，越复杂的博弈后果越不可预料，博弈永无终止。

囚徒困境不仅是理解博弈论的一个模型，也是一个思想实验。

它说明了在合作和背叛之间，有时候背叛可能是理性的选择。

旅游景点的商家可能会宰客，因为他们只关心单次博弈的利润；而知名品牌则注重质量，因为他们参与的是重复博弈，需要维护长期的声誉。在现实生活中，我们的行为也受到博弈论的影响。

我前两天在美团点外卖不满意给了个差评，商家为此跟我联系，提出可以给我发一个30块钱的红包，被我拒绝以后还不断纠缠，因为这个差评对他们的影响巨大，重复博弈的有效性在于背叛的后果严重，让参与者不敢轻易背叛。

在囚徒困境中，如果一个囚徒知道了另外一个囚徒背叛了，就会去杀他全家，那就都不敢背叛，反而会形成一个好的纳什均衡。

以牙还牙是一个简单粗暴而且有效的博弈策略。

虽然我们都是囚徒，但我们依然有可能合作。

但要求是：囚徒的认知水平要差不多，有默契，有信任，都愿意遵守游戏规则才行。

只要达不到上面的要求，就有可能产生误判，就会擦枪走火，从好的博弈变成坏的博弈。

人与人之间有博弈，国家与国家之间也有博弈。

托马斯谢林，不但被萨缪尔森誉为最聪明的经济学家，还是美苏冷战期间的美国智囊团重要成员，国家安全事务专家，在核武器军备竞赛的背景下，通过对博弈论的分析，加深了人们对冲突与合作的理解。美苏冷战最终没有变成热战，他发挥了极大的作用。

他也因此获得了2005年的诺贝尔经济学奖。

他是一位我们都需要铭记的科学家，不是因为博弈论，也不是诺贝尔奖，而是如果没有他，世界可能已经被核武器毁灭了。

最近中东局势又有所紧张，里面充满着各种博弈，非常复杂，后续会怎么发展，谁也不好判断，只能祈求当代的政治家有足够的智慧，玩好这个复杂的博弈游戏。

希望利用博弈论达成好的合作虽然很难，但是道理并不复杂，只需要博弈的玩家都有以下的共识：

1.长期主义：合作不是一锤子买卖，我们要看得更加长远，这次吃点小亏是为了日后合作更大的利益。

2.奖惩分明：合作收益很大，背叛的成本很高。坦白从宽，抗拒从严。

3.换位思考：要相互关心、相互尊重、相互信任。利他主义是一种互惠，你对别人好，别人才有可能对你好。

4.一报还一报：受到恩惠要感恩，要回报；被人背叛也要敢于复仇，要反制，不能让对方太嚣张，肆无忌惮地背叛。有报复的能力和威慑力，才有可能把对方拉回到合作的轨道。

5.真诚：我们有时候不可避免会使用一些小聪明小策略，套路在短期内可能会有效果，但长远来说总会被看穿，被看穿以后就没有效果，其他玩家还会防着你，要重新获得对方的信任和合作，就要付出更高的代价和成本。

真诚是最好的博弈方式，如果你选择真诚和透明，对方还是选择背叛，你可以报复，以后不跟他玩就好。最后的纳什均衡是：跟你一起玩的都是跟你一样真诚的人。反之，真诚的人都不会愿意跟你玩。

能总结提炼出来的道理都不复杂，但是要让所有玩家都能做到，而且持续很长时间都能做到，近乎不可能。

涉及的玩家越多越复杂，越难控制。

我们控制不了别人，只能控制自己，让自己变得稳定和可靠。

最后做个小结：

博弈论很有用，可以说是一切社会科学的基础。

囚徒困境是一个特别有用的思维工具，可以帮助我们理解国际政治中的各种制裁、联盟、军备竞赛，商业中的价格战，经济学中的公地悲剧、动物行为中的互助，体育比赛中的不公平竞争，医学上的抗生素滥用，心理学中的上瘾现象等等。

博弈论是所有这些现象的底层逻辑，是人类理性行为的第一性原理。

博弈就是一种游戏，博弈论研究是的是合作、竞争、对抗的学问，需要我们有玩家精神，必须遵守游戏规则、尊重其他玩家，需要理性客观，你最好能奉行长期主义，不计较短期得失，换位思考，懂得感恩，被人背叛也要有能力和勇气可以反制和报复，但最终，要真诚。

做到这些，你才是一个合格的玩家，别人才会愿意带你玩。

这不是思想道德课对我们的要求，而是博弈论这门伟大的科学对我们人类的要求。

如果把人生理解为一种游戏，那生活中处处有博弈。

石头剪刀布这种游戏有必胜之法吗？可能有，但需要有强大的计算能力。

如果我很了解你，知道你比较喜欢出布，那我大概率会出剪刀。

如果你知道了我知道你的这个习惯，知道我会出剪刀，那你就会出石头。

如果我知道了你知道我知道你的这个习惯，知道你会出石头，我就会出布。

这个我知道你知道我知道你知道的推理可以无限循环推理下去。

一般人能想多两层就很厉害了，想太多不但耗费能量，而且没用，还有可能反噬。

所以做事一定要多想，但又不能想太多。

人就是这么复杂，人生就是这么烦恼。

确实有一种必胜的策略：就是让对手先出。

把博弈论当成一种思维游戏，虽然烧脑，但也很有意思。

杂七杂八博弈论学习笔记：

一、什么是合作竞争co-opetition理论

商业运作是战争与和平的综合体。当许多商业实体在共同创建一个市场时，商业运作的表现是合作；当这些商业实体进行市场分配的时候，商业运作的表现即为竞争。

在竞争的时候既不需要消灭竞争对手，破坏了自己所生存的环境，也不必为了谋求合作而放弃自身的利益，失去了掌控局面的主动权。这是一个不用完全分出胜负的游戏，可以多赢。

二、合作竞争参与者构成的价值链十字模型

十字的中心是公司，聚焦到某个商业实体。

十字模型的四个顶端分别是顾客、供应商、竞争者和互补者，也就是配套服务者。

一个新的参与者放到这个模型中，可以分别从顾客和供应商的角度来考虑，而且会随着不同情境发生不同的变化。在销售的时候会发生竞争，在采购的时候又会产生合作。

可以把这个模型运用在任何组织，甚至是个人。一旦把一个研究对象放置到十字中心，那么它所处的环境以及环境中可能发生的变化就能尽收眼底了。还可以将十字模型任何一个端点上的对象，当做另外一个十字模型的中心，可以更好地理解顾客、供应商、竞争者和互补者。在原有的模型上不断扩展，就能勾画出一个关系网络，得到商业活动的整个版图，从而有了俯瞰整个商业大地的视角和方法。

三、怎样用博弈论的动态框架来制定商业战略？

博弈就是一种游戏，游戏中所有参与者的力量有强有弱，每个参与者对力量对比有各自的分析和对策。博弈论就是帮助游戏玩家更精确地测量游戏各方的力量对比，并且预测各种情况的最佳策略。

通过分析博弈中的五个核心要素，博弈游戏就会被改变：

1.参与者P（participant）：是否参加，参加或不参加谁会受益。

2.附加值A（added value）：每个参与者给游戏带来的价值。

3.规则（rule）：

4.战术（tactics）：如何理解这个事情？你认为其他参与者如何理解这个事情？你认为其他参与者怎么认为别人是理解这个事情的？

理性认知的层级：

（1）你知道

（2）我知道你知道

（3）你知道我知道你知道

（4）我知道你知道我知道你知道

（5）你知道我知道你知道我知道你知道

……

理论上有无穷多层，但实际上人类很难达到五级以上的理性层级，一般人有两级以上就很厉害了，就能战胜绝大部分的对手。每个人对问题的认知也是有差别的，人和人的认知差别可能会对游戏产生不同的影响，而这正是商业世界本身所具备的特性。

对参与者各方的认知程度都应该主动了解和思考，从而作为企业制定战略时的重要依据。在计算你的预期时，如果能判断出对方的预期，就能制定出对双方都更有利的方案。

5.范围（scope）：认识游戏之间的联系，利用这些联系为自己的利益服务。这些联系也不是固定的，可以在游戏之间创立新的联系，或者切断现有的联系，把游戏放置到更广阔的范围中，有一个更大的视野，发现更多的变化可能性。

上述五个要素是一个整体，相互之间的联系非常紧密，有些元素内容会有所重叠，但在分析具体情况时，还是有必要单独去看待每个元素，避免忽略掉某些信息而做出片面的决策。

一、策略思维最基本的分析方法：

1.向前展望：在做决策之前，要预测对方可能会采取什么行为，以及这个行为会带来什么样的结果。

2.倒后推理：先明确最后想达到什么样的目标，然后从这个目标倒着往后推，一步一步地确定策略。

适用于轮流出招博弈，比如下棋。

二、对于双方需要同时出招的博弈适用的策略：

出招之前，不知道对方会怎么出招，必须设想如果自己处在对方的位置会怎么出招，然后再推算这么出招会带来什么结果。既要站在自己的角度考虑，还要站在对方的角度考虑。

1.选择你的优势策略

2.避免你的劣势策略

3.寻找博弈的均衡，也就是均衡策略：纳什均衡

同时出招的博弈是一个循环推理的过程，首先要找出自己的优势策略，尽量选择；然后找出自己的劣势策略，尽量避免；最后不断简化博弈过程，找到博弈的均衡，也就是每个人的策略都是回应对方的最佳策略。

三、如果和对手的决策会相互影响，如何防止对手预测我们？

随机策略：用一种不可预测的方法做出你的决策，让对手很难预测你的行为。

1.威胁：对不肯跟你合作的人进行惩罚。

2.许诺：给愿意跟你合作的人提供回报。

还需要让威胁和许诺变得可信。

四、通过博弈维护共同利益。

囚徒困境不仅是一个模型，也是一个思想实验，跟三个因素有关：

1.博弈各方在不同策略下的成本和收益：双方都不愿意背叛或者背叛的成本无穷大，就不会出现囚徒困境。

2.博弈的次数：如果多次博弈的可能性，背叛的概率也会很低。

3.参与人数：参与人数越多，串供的可能性越小，浑水摸鱼的人就越多。

要跳出囚徒困境，维护共同利益，就必须对背叛进行严格的惩罚，提高背叛的成本。

博弈论持一种悲观现实主义的世界观，不承认人会大公无私地奉献。人与人之间充满了欺诈和背叛，但这样一种悲观的思想，却能推导出非常乐观的结论。即使这个世界很灰暗，但乐于合作的好人有更高的概率会胜出。

即便这个世界已经沉沦，只要有一小批人愿意跟你坚持道德底线，你还能过的很好，没人能强迫你堕落。

你的每个选择，都与别人有关系，不但会影响到别人，而且很有可能会影响到整个社会。微观动机和宏观行为之间存在着复杂的互动。

一、个人无论怎么选择，都对社会整体结果没有影响。

1.生男生女案例：头胎是男孩就不再生，是女孩就继续生，直到生出男孩为止，最终结果社会中男女比例还是1:1。

2.红酒和白酒兑酒案例：先从红酒杯中舀一勺到白酒杯，再从白酒杯舀一勺到红酒杯。最终白酒杯中的红酒，和红酒杯中的白酒比例都是一样的。

二、个人的利益最大化选择，导致了社会整体福利的下降。

看不见的手原理，也就是只要人人自私自利，就可以增进社会整体福利情况，只是博弈论中一个特例，更常见的情况是反过来的。

一旦陷入军备竞赛、公地悲剧、内卷这样的困境，系统是没有自我修复能力的，仅靠个体选择无法扭转局面。需要外部力量的介入，一个强制性的法律法规或者社会公约，统一规划、统一安排。

接种疫苗的案例：整体接种率高，个人最有选择是不接种，省事儿；当大部人选择不接种，疫情恶化，最有选择是接种，降低染病概率。每个人的最优选择不是固定的，而要取决于别人是怎么选的，这就形成了一种震荡模式，社会系统变得不稳定。

好人和坏人的比例也是一种震荡模式，两种人的比例在两个极端之间反复震荡，都没有一劳永逸的优势。

三、看上去并不极端的个人偏好，却导致了极端的社会结果。

1.选座位案例：先到场就座的听众的真实偏好步兵极端，只是不想太突出坐在前面，或者只是想挨着多数人一起坐，可能就会造成前几排没人就座的局面。

2.美国种族各自抱团的案例：并非种族主义者，只是不希望自己变成社区中的绝对少数派，那么一开始黑白融合的社区就会变得越来越分离，最后变成一种黑白分明的模式。

一、在计算机模拟囚徒困境，进行重复博弈的游戏。

好人策略大获全胜，冠军是一报还一报策略，拥有四大优点：

1.善良：从不首先背叛。

2.不被欺负：有仇必报。

3.宽容：如果对方恢复合作则既往不咎。

4.清晰：行为模式简单明了。

二、游戏的启示。

1.不要嫉妒：获胜的关键不是靠打压对方，而是要通过创造长期合作来实现共赢，细节的得失无需斤斤计较。自己想要成功，就要帮助别人成功。

2.不要首先背叛：出来混总是要还的，背叛是有代价的，肯定会遭遇相应的报复，总体得不偿失。

3.赏罚分明：以德报德，以直报怨，千万不可以和稀泥、滥好人，否则必将吃亏。

4.不要耍小聪明：规则越复杂，意味着出现漏洞的可能性越大；过于复杂的决策规则可能让对方看不懂，而被误认为是随机策略。

零和博弈需要隐藏自己的战略意图；重复博弈则行为准则越简单越好，方便达成合作。

阿克塞尔罗德游戏的前提条件：博弈的回合数足够多，未来的利益足够重要。

如果想要促成合作，就要想方设法增加未来的影响力，让未来的合作利益尽可能的重要：

1.把合作周期拉长，与对方建立起长久的利益关系。

2.增加互动的频率。

只要未来足够重要，合作就比背叛更划算，合作才能稳定持续。

三、模拟游戏与现实的区别。

成功之处：

1.假设每个参与者都是自私的，无论合作或者是背叛都是利益权衡的结果，不需要预设道德前提，也不需要信任关系。

2.不需要一个中央权威来敢于决策，所有选择都是个人的自主决定。

3.参与博弈的策略五花八门，有理性有疯狂，有投机有保守，有善良有阴险，有强硬有软弱。

4.博弈的回合数足够多，意味着未来足够重要。

结论：随着时间的推移，好人会越来越多，合作越来越牢固，坏人会被自然淘汰以致灭绝。合作的进化是不可能逆转的。

这个结论过于乐观，与现实不符合，因为有一个漏洞：“杀不死”假定。永远都有卷土重来的机会，相当于严格限制了坏人作恶的破坏力。现实中的背叛往往是一击致命的，失败者可能永远没有机会翻盘。

游戏中的所作所为都是一目了然的，而现实中很多时候都是暗算。

游戏中的策略都是设定好的，不能更改，现实中变数则复杂很多。

还有可能出现好人和坏人的实力不均等，导致好人实际上无法做到一报还一报。

现实的情况是，合作的进化并非是单方向的，而是一个波动循环。合作与背叛的选择，是个动态博弈的过程，无论哪种策略，都不可能获得一劳永逸的胜利。

在一定条件下，做好人能够获得显著的生存优势，这就给了我们希望：可能建立长期稳固的合作关系。但也不能过于乐观，光靠个人的利益博弈，还不足以让破坏合作的坏人坏事彻底消失，制度建设、道德建设让人是不可或缺的。

何帆解读博弈论：

一、重新审视囚徒困境的最优解

1.人性只在幽明之间。从幽的角度来看，我们无法预测他人的行为；从明的角度来看，我们可以在一定程度猜测别人的心思。

但人性是复杂的，幽明其实没有绝对，也没有标准答案。

这是一个不完美的世界，我们是不完美的人。

博弈论就是在幽明之间观察人类行为的。

博弈论的基本观点：你在做出自己的决策时，必须把别人的决策考虑进来。

博弈论在经济学、政治学、军备竞赛、商业世界、进化生物学都有广泛的应用。

需要用到很复杂的数学，但是核心观点却简单清晰。

2.一个核心的模型：囚徒困境

如果在一个完美的世界，两个囚徒都是上帝视角，配合默契，他们的最优策略应该坚定合作，也就是同时不招供，无论怎样的严刑逼供都无法动摇他们的意志。

但是，这是一个不完美的世界，他们没有上帝视角，他们无法完全信任另外一个人，他们就会动摇，也估计对方也很有可能动摇，只要有一丝丝的信任裂缝，信任的大厦就必然会轰然倒塌，最终结果就是都会招供。

因为在这个不完美的世界，无论对方是否招供，你的最优策略都是招供。这在博弈论里被称为占优策略。

当然，你也可以选择搏一把，选择在完美世界里的最优策略，不招供，但在不完美的世界里用完美世界的策略，你也许有个极小的概率碰到对方也是跟你一样想法的人，但大概率，对方会招供，你就会非常倒霉。

3.博弈论的三个要素

（1）支付结构：成本与收益。有两种情况不会背叛：绝对信任的伙伴；背叛的成本太大。

（2）博弈次数：重复博弈会降低背叛的概率。

（3）参与人数：参与人数越多监督越难，浑水摸鱼的人就越多。

二、鼓励合作的五个策略

1.西线无战事

战争中交战双方互不攻击对方的运输部队，并不意味着希望和好，而是这种默契的合作对双方都有好处。

在最不可能合作的地方，最不可能合作的人，也有可能出现合作。

2.一报还一报策略

（1）不主动作恶和背叛

（2）如果你背叛，我就会惩罚你：背叛有成本

（3）如果对方背叛后回心转意，选择原谅，不计前嫌，继续合作

特点是：善良，但不盲目善良；宽容，允许对方悔改；简单，对方辨识成本低，容易获得信任。适合重复博弈。

3.鼓励合作的五个策略

（1）引导人们看得长远：增加博弈的次数。把一个大的谈判分成很多很小的步骤。一步步显示和辨识双方的合作诚意。

（2）改变支付结构：让合作的收益更大，背叛成本更高。坦白从宽，抗拒从严。

（3）教会人们相互关心：利他主义是一种互惠，符合演化思维，想要获得，先要付出；好人有好报；打造个人IP。

（4）教育人们要回报：获得帮助要报恩，遭人背叛要报仇，有条件的合作比无条件的合作更好。

（5）让别人看清楚你的策略：如果别人不清楚你的策略，可能会用恶意来揣度你，真诚是成本最低的策略。

三、如何在合作中占据上风

1.胆小鬼博弈

合作要比不合作好，为了避免最糟糕的情况，双方在最后一刻一定要保持克制。

绑住自己的手策略：限制自己，反而获得更大的自由。

2.让威胁变得可信

下棋不是真正的博弈，因为能看到对方每步棋，棋局是透明、清晰的。

扑克牌才是真正的博弈，因为并不知道其他人手上的牌，大家都有可能虚张声势，包括你的对家，因为都不确定其他人的策略，所以也就都无法完全确定自己怎样出牌才算是最优策略。每个人的最优策略都是不确定的，都是不可控的，都是受制于人的。

让威胁变得可信，就是在特定情况下，把自己的牌亮出来给别人看，把选择权丢给对方，对方获得确定的信息，反而会做出确定的对策，把不可控的因素转化为可控因素。

3.学会让权，才有权力

不是所有的事情都是自己说了算才是好事，要学会让权。把主动权让渡出去，貌似吃亏，其实反而更有权力，更有主动性。

双层博弈：

在进行国际谈判的时候，除了表面上外交官的谈判桌之外，其实他们的背后还有另外一张谈判桌，包括其他政府部门、政治家和社会力量。国际政治和国内政治是同时在两个层次上进行的，第二张谈判桌会影响到第一张谈判桌。

政府领导力更强，效率更高，但有可能反而会在谈判的时候让步更多。领导力弱的一方，因为权力弱，背后受制的因素更多，没有话语权，反而能表现得更加强硬。结果，看起来主动的一方反而被动，看起来被动的一方反而主动。

四、什么是信号传递机制？

博弈是一件非常纠结的事情，一方面希望合作，另一方面有担心吃亏受骗。关键是信息不对称，我们不信任别人，别人也不信任我们。如何才能让别人信任？

信号传递机制：要看一个人值不值得信任，就要看他是否肯付出高昂的成本。

喝酒就是一种信号的传递。

看起来浪费的事情，其实很有用。

教育信号理论：上大学不一定能学到真本领，但传递一个信号，有学习能力。

累赘原理：越是浪费的东西，越能显示出价值，孔雀的尾巴——我的身体很好。

送礼传递了一个信号，我很重视你。礼物就是用来浪费的，越是没有用处越是价超所值的东西，就越容易成为礼品。

五、加强自我控制策略的窍门

通过博弈论更好地进行自我管理。

传统经济学假设人是一个独立的个体，一人做事一人当。人难以控制自我，不愿意承认错误，承认错误会降低一个人的自尊心，让人自暴自弃。

心理学则说人的大脑有几个不同的自我，让其中一个去说服和管理另外一个自我，更有效果。

尽可能减少那些被管教的自我的自主权，对他们要有一些悲悯，不必苛责。

借助外部力量监督自己。

更好地利用鼓励、惩罚和制度的力量，更像是在管理别人，从管理别人的实践中，学到自我管理的经验。

万维钢解读博弈论：

一、博弈论不是三十六计

我们经常听说博弈，但很少真正使用博弈，因为博弈论并不是那么好用。不是没用，主要是对博弈论的用法有误解。

1.计谋与战略

三十六计中的计谋（套路），本质上都是骗术，是一本阴谋诡计之书。计谋不值得被认真对待，有三个问题：

（1）诡计有巨大的风险：要想成功，就必须严密封锁信息，而且要假设别人是傻瓜。

（2）不能长期使用：欺骗不可能长久。

（3）计谋是零和游戏：商业合作、人际交往一般都不是零和游戏，需要合作共赢。

计谋的本质，是一厢情愿。会反噬，成本有可能高得无法想象。

比如：猫一杯秦朗暑假作业在巴黎厕所丢失的视频策划。

博弈论研究的是理性人之间的博弈。

2.什么是理性

虽然人经常表现得非理性，但传统经济学的理性人假设也有其道理，人在做重要决策的时候，通常是理性的：

（1）知道自己想要什么，而且对事情的轻重缓急有个明确的排序。

（2）行动在一定的规则之下，争取想要的东西。

（3）知道对手也是理性的，也是这么想的，也理解这些规则。

但人有时候会被情绪左右和劫持，这个时候就不适合使用博弈论。

一个人长期按某种你以为不理性的逻辑做事，其中可能就有理性的成分。

如果一个现象长期存在，那就存在均衡，这个结果是各方理性选择所造成的一个格局。

3.博弈论的用处

因为要求各方是充分理性的，有时候博弈论会得出一个非常怪的结论。

博弈论能帮助我们理解长期存在的各种现象。

不是说可以理解的现象就应该长期存在，而是理解为什么存在，如何改变？

不好的局面的形成有多种原因可能性，博弈论可以根据不同的原因，使用不同的工具，形成更好的局面。

很多人用不上博弈论，是因为缺少博弈格局的眼光和改变博弈规则的意识。

最起码的一点：时刻提醒自己要理性。你每个行动都是有后果的，都会造成蝴蝶效应，要考虑其他人的反应，你如何应对，然后对方再怎么反应……

要有一点参与游戏的精神，有权在规则内采取对自己最有利的行动，你就是积极主动的，你就会平等对待对手。不会浑浑噩噩根据别人的设定做事，也不会有整个世界绕着自己转的幻觉。

二、群鸦的盛宴

博弈论是人在社会中如何做理性决策的理论。

理性决策总是不得已的：在现有规则下，考虑对手的反应，你通常没有太多选择。

很多事情这样并不是因为有人喜欢这样，哪怕是所有人都不喜欢这个局面，却都只能维护这个局面。

往往是博弈改变人，我们学习博弈论的终极目的，就是要改变博弈。

1.为什么商家总扎堆？

博弈论要求你必须考虑竞争对手会怎样做。

帕累托改进：这个改进能在不伤害任何一个人的利益的同时，使得至少一个人的境遇变得更好。

帕累托最优：一个局面已经好到没有帕累托改进的余地了。

一个理想的世界应该是帕累托最优的，但是帕累托最优在博弈中通常都是个不稳定的局面，而只有稳定的局面才能更长久存在。

2.囚徒困境

博弈论要求我们每次做判断都要考虑对方怎么做：对方怎么做会影响你自己的结果，进而影响你的判断和行动。

压倒性策略：不管对手怎么做，这个策略对你来说都是最好的。

被压倒性策略：不管别人怎么做，你这么做对你都是不好的。

博弈双方都采取压倒性的策略，也就是对自己最好的策略，但结果不是帕累托最优。

纳什均衡：在这个策略组合里，没有任何一方面愿意单方面改变自己的策略。

社会中很多不合理的存在就是一个纳什均衡：评价一个局面不能只看它是不是对整体最好，而是必须得让每个参与者都不愿意单方面改变才行。

理想主义者寻找帕累托最优；现实主义者寻找纳什均衡。

一个制度哪怕再好，如果不是纳什均衡就不会被遵守；一个制度哪怕再差，如果是纳什均衡就会长久存在。

3.秦朝人的游戏

在特定的时代和特定的国家，战争和高压统治都是纳什均衡。

枪打出头鸟：谁都不愿意带头采取行动，这又是一个纳什均衡。

专制强权的主要威胁来自内部。

要改变均衡，就要改变游戏规则。

三、以和为贵

非合作博弈：参与者并非心往一处想劲往一处使齐心合力办大事，而是每个人都像的是怎么让自己赢。出发点是非合作的，结果却可以达成合作。

市场经济：每个人都是自私的，都为了自己的利益工作，全社会却达成高水平的合作。

博弈论寻求能让人自愿合作的机制，终极目的是要促进合作。

好的合作，一定得是个纳什均衡。

在很多博弈中，人们原本就想合作。

1.聚焦点

世界上最完美的法律是交通法规。

靠右通行只是个任意的规定，最终形成了纳什均衡。

聚焦点：在众多个可能的纳什均衡中最显眼的那一个，人们会自动在这一点上达成合作。聚焦点的作用是协调。

2.生活中的聚焦点

（1）设计出来的：科技产品的标准，采取什么标准不重要，重要的是要有标准；高速公路的限速。

（2）属于路径依赖的：度量衡、QWERTY键盘、传统文化和社会习俗。

在没有聚焦点的时候主动提出一个聚焦点，促成合作。

聚焦点最大的价值就是它存在本身。有了规范和标准，就能省下一大堆的麻烦。

聚焦点的关键前提：各方没有根本的利益冲突，都希望促成合作，需要解决的只是在哪里合作。

3.谈判中的聚焦点

谈薪酬：谈判目标有很大的任意性，但是双方都希望达成合作。

财产分配：约定俗成认为平分是最公平的，但其实很多情况下没有道理。

想要合作的人需要聚焦点，只要能找到借口，任何借口都可以是聚焦点。

4.抽签

如果双方都有强烈的合作愿望，博弈存在多个纳什均衡，要做的就是找到聚焦点。

四、不纵容，但要宽容

防止背叛，最直观的办法就是把单次博弈变成重复博弈。

1.美国往事

一群人想要合作，至少要满足下面其中一个条件：

（1）合作对自己有好处，本来就想合作。

（2）不合作会受到惩罚。

黑手党同时满足上面两个条件：有好处，有纪律。

有效的惩罚必须满足几个条件：

（1）发现有背叛行为

（2）惩罚必须得是可信的

（3）对方知道自己一定会受到惩罚

（4）惩罚力度足够

WTO就是一个很善于惩罚的组织，成员加入之后，最佳策略是合作。

胡萝卜加大棒，这样的合作关系是非常稳定的。

2.稳定和脆弱

利益和惩罚只是硬条件，如果内部没有最起码的信任，合作就是脆弱的。

3.以牙还牙真的好吗？

简单、粗暴、有效。

真实世界中，以牙还牙并不是最好的策略，因为不够宽容，真实生活中有些错误可能是无心之失，宽容能避免脆弱，但宽容有个度，过度宽容就是纵容。

五、装好人的好处

1.好人和囚徒困境

单次博弈的囚徒困境，压倒性策略是做坏人，但真实世界中有一半的人选择了合作，他们宁可被背叛也不愿意背叛别人，选择有点非理性。

2.好人与有限次重复博弈

重复博弈会促进合作的隐含假设是重复的次数是无限的。

在有限次的重复博弈中，按道理还是不应该合作。

四人帮模型：对方到底是不是个理性的人，这个信息是不完全的，是不完全信息博弈。

当你面对一个好人的时候，你的理性选择是合作。

KMRW定理：在不完全信息博弈中，参与者不知道对方是好人还是理性人，只要博弈重复的次数足够多，合作能带来足够的好处，双方都会愿意维护自己是好人这样一个声誉，前期尽可能地保持合作，到最后才选择背叛。

3.好人与社会

KMRW策略可以解释大智若愚：智就是为了自己的利益；愚就是宁可吃亏也不背叛。每次博弈都为了自己的利益，是小智；如果宁可吃亏也要合作，就会建立一个良好的声誉，会有更多人愿意和你合作，长期来说是大智。

吃小亏赚大便宜指的不是每次都亏损，而是

4.好人与理性人

理性人有充分理由不暴露自己是个理性人，应该装成是个好人。

好人经常对世界有一厢情愿的期待。

如果身处一个险恶的社会环境，不但不应该做好人，还应该装坏人。

好人和好人之间会形成一个想象的共同体，这是一个幻觉，是最强大的社会力量。

六、布衣竞争，权贵合谋

市场上的企业竞争是一个囚徒困境，消费者希望公司之间相互竞争；公司希望达成合作。

只要参与者足够少，利益足够大，合谋就是必然的。

1.钻石故事

必须价格贵才有人买，贵就是它的价值。

钻石业务的玩家是少数，他们非常默契的形成了同盟，绝不降价，这种协调是意会，并不需要形成组织。

2.价格匹配：

买贵了补差价承诺：价格匹配是一种不用直接对话的协调，可以避免打价格战。一个商家降价，其他商家也要降价，所以降价无效。

3.互联网时代的合谋：

比价网站方便了商家之间的价格协调。有这样的协调机制，在报价这一点上看，消费者面对的其实只有一家店。

合作的利益打就不会竞争，背叛成本低的才会背叛。

七、有一种解放叫禁止

博弈论是一切社会科学的基础。

囚徒困境是一个应用广泛的思维工具：

1.经济学：负的外部性，公地悲剧，价格战

2.国际政治：军备竞赛

3.动物世界：互助行为

4.体育比赛：使用禁药

5.医学：抗生素滥用

6.心理学：上瘾

破解囚徒困境的方法可以在各个领域使用，博弈论是一个更底层的逻辑。

博弈论是人类理性行为的第一性原理。

破解囚徒困境最直观的解决方案：让政府管

1.我们需要被管

监管的本质是改变了博弈的回报，有了有效的监管，不合作就不但没有好处，而且还会受到惩罚，那么不合作的行为就会大大减少。

禁止烟草公司做广告的法规是烟草公司自己在国会运作的结果，省下了大量的广告费，用第三方监管的方式解决了囚徒困境。

有一种困境叫自由，有一种解放叫禁止。

监管是玩家避免恶性竞争的协作手段。

但监管并不是万能的。

2.渔民的故事

（1）社区自我管理：大家互相监督，都不许出海。但是到了捕鱼的季节，各家都会使用最先进的捕捞技术，竭泽而渔。

（2）私有化：通常无法让一家渔民拥有整个渔场，只能分配给几家，按照规定配合，但是很难对配额的执行情况进行监管。

（3）政府监管：政府没有能力监管每条船。

（4）第四方监管：没有执法权的统计机构。至少可以获得一个真实的总数。

监管是没有办法的办法，但是监管也可以玩得很高级。

3.宽严皆误

监管要与企业合作。

环保部门没有足够的人力物力检测，只能抽检，高成本低效率，还与企业产生了尖锐的对立关系。

干脆放权给企业自查，自己报告，自己上报违规行为，就不对其进行处罚。

理想的局面是：企业自觉、政府宽松、双方合作。

现实的局面是：企业想作弊、政府想严惩，双方都不想合作。

重复博弈：监管是长期的，表现好的可以给与信任，免检，企业也轻松。

承诺：

（1）政府单方面承诺只要企业主动报告的违规行为，一律不处罚。

（2）企业联合承诺：资源加入自我监管计划，在企业内设立专门的环保管理者，自己管理自己。

实践证明，监管者和被监管者的合作关系是有可能达成的。

从博弈论的角度看，政府并非特殊的存在，可能只是几个可能的监管者中的一个，而且受限于执法成本，监管力量有限。

应该把政府（监管者）也当做一个玩家，参与博弈这个游戏之中。

八、先下手为强

博弈的出发点不是合作，而是争夺。

博弈的目标是让别人按照你的意志行事。

动态博弈：参与者出手有先后次序。

动态博弈的本质不是轮流出招，而是你可以改变游戏的规则。

每次行动之后，留给对方的都是一个不一样的博弈局面，都是一个新的游戏。

1.既成的事实

小鸡博弈：只要能确定对方的底线，那就先发制人，造成既成事实，逼迫对手就范。

生米煮成熟饭

it's better to aks forgiveness than permission.

2.危险的边缘

古巴导弹危机：brinkmanship策略，边缘策略，悬崖策略。

相当于动态的小鸡博弈，层层加码，加剧危机，直到有一方面让步为止。

3.什么是威慑

威慑有三大要素：实力、决心和让对手知道。

而且，双方都不想被摧毁——都必须是理性的。

九、其身不正，虽令不从

博弈的出发点是做一个玩家，是每个参与者竞相采取对自己最有力的行动。

每个人都应该遵守游戏规则，不能又当玩家，又当裁判，要把别人也当成玩家。

1.威胁和承诺——动态博弈的基本概念。

都是在博弈双方都没有采取实质行动之前，一方通知另一方的声明。威胁是如果对方做了就惩罚，承诺是给奖励，本质上都是一样的——我会根据你下一步行动采取一个相应的行动。

托马斯谢林《冲突的策略》：

可信性：威胁和承诺是否可信？对于理性的人来说，只有可信的威胁和承诺才有意义。

要设身处地地进行利弊分析，不可信是因为事前最优和事后最优的不一致。

博弈论研究的决策不涉及情绪化，而是由利益格局决定的。

对个人的承诺不一定符合组织的利益，所以这个承诺就不可信。

不可信的威胁和承诺说了也白说，还会降低一个人的公信力。

可信的威胁和承诺则是非常有用的。

2.如何说别人才会听

可信=别无选择

事后履行威胁或者承诺符合当时的利益，事前最优和事后最优一致，才是可信的。

为了发出可信的威胁或者承诺，必须主动束缚自己的手脚：

（1）给别人惩罚你的权力

签合同：违约的话面临巨大损失，履行承诺符合我的最优利益。

对赌：做不到就惩罚

婚姻：对爱情最好的承诺

（2）主动取消自己的选项

破釜沉舟

围师必阙：给对手留个出口，让对手有逃跑的选择，就不会拼死困兽犹斗，以最小的代价取得胜利。

高调发布信息

艺术家去世以后他的作品会升值：不会再有新作品，作品供应有限。

（3）建立声望

声望的积累是个处处受限、不自由的过程，损失声望是对失信的最大惩罚。

3.博弈的游戏

可信的人非常有力量

自由来自自律，有一种击败叫放任，有一种赋能叫失能。

民主的政府，相对专制会损失一部分的权力，但是可信度更高，会更有力量。

政府之所以要自缚手脚，是为了取信于民，把自己当成一个玩家，跟民众玩一个博弈的游戏。因为民众也都是玩家，也都可以采取行动。

专制的国家的权力不来自于人民，也不依赖人民，所以人民就不具备可以跟政府博弈的力量，他们不是玩家。

博弈论是属于玩家的理论。

十、后发优势的逻辑

1.后发者优势的博弈

德州扑克：关于信息的游戏，先发者暴露信息，后发者利用信息。

2.领先者应该模仿

对于领先者来说，模仿是最稳妥的策略，先发改变会有不确定性。

对于落后者来说，想赢必须冒险，先发改变才有机会，模仿则一点机会都没有。

领先者有后发优势。

3.模仿和创新

创新本质上是一场赌博。

模仿成本低，风险低，但模仿不可能让自己超过领先者。模仿最多让落后者做到跟领先者一样，想要超越，必须有新东西。

后发优势=先发者的信息+后发者的出手权。

信息是模仿机会，出手权是创新机会。

中国的后发优势不但体现在获得先发者的信息，还体现在有独特的出手权：

1.巨大的市场：外国公司无法轻易进入这个市场，中国公司有天然的优势。

2.有大量聪明而又勤奋的劳动者，有很好的基础设施：很多发达国家不具备。

3.有中国特色的模仿：产业政策，由政府出面，重点扶持某个产业。对于技术落后者，明确知道产业方向，产业政策就是最快速的模仿方式。

只有中国才拥有这些出手权，其他国家无法模仿。

在很多情况下，领先者就算有出手权也不愿意使用，改变战略是一件非常困难的事情。

先发优势在于占领，后发优势在于信息和这时候才有的出手权。

美国搞技术管控就是限制后发者获得信息，后发者也就无法模仿，被迫创新。

这个先发和后发的博弈，谁也不能保证一直领先。

十一、真正诡道是随机性

1.诡道的悖论

只说谎话就等于只说实话，想要真正迷惑对手，必须混合谎话和实话，让对手摸不清楚规律。

2.混合策略

混合策略的选择，应该把对手能得到的最大报偿最小化。

最小最大值定理minimax theorem：计算出一个谎话和实话的最佳配比。

（1）要按一定的概率，混合自己的打法

（2）混合打法的规律是让对手无法利用的

3.真随机的好处

不是真随机，就会被破解。随机性是真实的诡道。

抽查就不能有规律，有规律对方就能有对策。

混合策略是阳谋，专说谎话是阴谋，阴谋容易被识破，阳谋不容易识破。

所有人都是纳什均衡的奴隶。

十二、怎样筛选信号

打广告、上大学、吹捧领导，这三件事情的共同点就是都很贵：成本分别是金钱、时间和脸面，但有没有直接的用处。

从博弈论的角度分析，做这样的事情，目的是为了解决信息不对称。

1.怎样让信息可信

信息不对称：

商家认为这是个绝对的好产品，可以怎么说别人也不相信，因为所有商家都会说自己的东西是好产品。

消费者也很想买个好东西，但不知道应该相信谁。

因为不信任，沟通成本很高。

乔治阿克洛夫：用数学语言说明了信息不对称导致旧车交易市场失灵，获得了2001年诺贝尔奖。

解决市场失灵，可以：

（1）依靠公信机构（教育部、三大认证、排名），监督和检查产品质量，惩罚质量差的商家。

（2）发信号signaling（彭斯）：保修合同、不满意就退款、拍胸脯；信号不是说的，而是做的，只有你的信息是真实的情况下，这么做才是合理的。

知名品牌花很多钱高调地打广告就是发信号：我做的是长期生意，我为了品牌花了很多钱，做假冒伪劣的成本非常高。

上大学：没有足够才能的人上不了大学。

吹捧领导：证明自己的忠诚。

反信号：特别厉害无需证明自己的人，会刻意保持低调。

2.逆向选择和正向选择

保险行业的困境：来投保的是最需要保险的人；最需要保险的人恰恰是保险公司最不想要的人。

（银行贷款的困境：最安全的客户不需要贷款；需要贷款的客户不够安全。）

想买保险的人风险大，保险公司不得不提高保费，会让不想买保险的健康人更不愿意买保险，造成逆向选择——筛选出来的都是不想要的。

信号筛选screening：

（1）每个月保费低，每年看病需要自己掏钱的上限也低，但是每次看病自己花钱多。

（2）每个月保费高，每年看病需要自己掏钱的上限也高，但是每次看病自己花钱少。

健康人会选择第一种，因为保费低，出现重大疾病掏钱少。

多病的人会选择第二种，因为经常去医院，更在意每次看病花钱少。

3.信号筛选种种

信用卡公司的余额代偿：

（1）量入为出：按时还款，信用卡公司赚不到钱，只能收点商家手续费。

（2）分期付款：有一笔大的支出，慢慢还。信用卡公司主要收入来源，余额代偿服务的主要目标客户，也是最优质的客户。

（3）花光自己信用、不打算还钱的。

申请大学、应聘公司手续复杂，也是为了筛选。

区别定价、价格歧视：给不同付费意愿的人不同的价格。

（1）中杯、大杯、特大杯的咖啡

（2）学生版、家庭版、专业版、企业版的软件

有了这个思维框架，你会发现信号筛选无处不在，很多之前难以理解的事情也就会豁然开朗。

当局者迷，身处一个时代和局面，未必能理解和洞察这个时代和局面。

十三、博弈设计者

学习博弈论的底线：不能治于人——做一个独立自主的玩家，识别各种博弈局面，自己决定如何应付，拒绝被安排。

玩家与玩家之间是平等的关系。

可以有比玩家更高级的视角：作为规则制定者，去给别人设计博弈的局面。

设计一个博弈，要比参加一个博弈难得多。

绝大多数博弈是自然形成的，是千锤百炼的结果。自己设计博弈，需要非常小心。

1.薪酬结构

起作用的分成，一定得让双方都在意才行。

2.拍卖故事

维克里拍卖Vickrey auction（次价密封投标拍卖）：暗标，每个竞拍者只出价一次，放在信封里不让人看见，出价最高者中标，但只需要支付第二名竞标报价。

让竞标者可以放心大胆报出最高价，不用担心不了解行情而吃亏。

暗标的缺点在于竞标者有时候不知道标的物应该价值多少，出价就会偏保守。

明标虽然有时候会让竞拍者互相传统，但是互相确认，更容易认可高价。

日本式拍卖：明标，竞拍者不能喊价，只能被动接受拍卖者的一轮比一轮高的报价，只要留在拍卖会场的竞拍者，就必须接受当前的报价，如果退场，就再也不能回来。

好处是让竞拍者不但无法传统，而且还自动相互鼓励。

3.理性与数学

薪酬体系理论的假定：

（1）人们工作只是为了钱

（2）只要监管不到位，就会偷懒，甚至腐败

只有工资足够高，才会担心偷懒被抓住，才会为了保住工作而不偷懒。越容易偷懒的岗位，工资就得越高。高薪养廉也是这个逻辑。

把博弈论用于制度设计，通常需要有两个默认前提：

（1）激励必须基于可见、可量化的表现：荣誉、地位、权力无法量化。

（2）参与各方是为了一个单一的目标进行博弈

博弈论无法设计一个完美的制度，让官员不腐败，让科学家不偷懒。

十四、冥冥中自有定数

1.三种求偶策略

策略的优劣不是永恒的，必须考虑当前社会博弈格局。

从上帝视角来看，策略可以演化。

2.策略的演化

博弈的演化，是策略的竞争。

3.鹰鸽博弈

抽象推理的力量：抓住现象背后的数学机制。

十五、永无休止的博弈

最根本的博弈思维，必须考虑对手对你的策略做出的反应，还得考虑你怎么对他的反应做出反应，他怎么再反应……需要站在两个、甚至更多个立场思考问题。

纳什均衡是博弈论里最重要的思想，也是驱除妄念的清醒剂：如果博弈各方足够聪明和理性，最终的策略一定导致一个局面：大家都认命，谁也无法单方面改变策略去谋求一个更好的结局。

纳什均衡是谋略计算的终点。·

如果各方有强烈的合作意愿，而博弈有不止一个纳什均衡，就需要一个聚焦点。

如果合作对所有人都有好处，但背叛对背叛者有直接的好处，那就是囚徒困境。

如果博弈是可以重复的，应该寻求对背叛者的惩罚。以牙还牙是最经典的做法，但适当的宽容更能促成合作。

在残酷的世界里做好人表面上是非理性的，但只要博弈次数比较多，做好人其实是有利的。

如果参加博弈的人数比较少，合作的利益比较大，就会形成串通和合谋，尽管不一定对社会有好处。

有时候主动放弃一部分自由、让第三方监管，反而能促进自由，监管者也应该把自己当做玩家。

只要社会还需要把人才识别出来的信号，考试的博弈就会永远进行下去，在演化的过程中，每个参与者都变得更加精明和理性了。

无休止的博弈，能把我们变成更好的人。

真正的智慧，来自于无休止的博弈。

王烁解读《妙趣横生博弈论》

博弈策略|策略性发狂

懦夫游戏：两个人各开一辆车迎面对开，谁先拐弯谁输，谁是懦夫。

1.一个人拐弯，一个人不拐：没人受伤，一个懦夫，一个英雄。

2.两人都拐弯：都是懦夫，没人受伤。

3.两个都不拐：都受重伤，都是脑残。

这个游戏有两个均衡点，对双方来说，给定对方的选择，改变自己的选择都没有好处，所以双方都不会离开均衡点：一旦到达，就此锁定。

1.你确定不拐弯，对手最好的选择就是拐弯。

2.对方确定不拐弯，你的最好选择就是拐弯。

这两个均衡点互为镜像，一个对你有利，一个对你没利。

谢林给的建议就是：抢先把方向盘拆下来，扔出窗外。

公路上车抢车道、古巴导弹危机、俄乌战争、中美贸易战、核威慑等等都是懦夫游戏。

悬崖边缘策略要有用，前提是它确实有失控的可能，想控制也控制不了。是不是装，在这里已无意义，这就是疯狂，极度理性与极度疯狂合二为一。

混合策略：偶尔发点疯。

完全不发疯的话会被对手吃定；总是发疯的话很容易就毁灭。

要在生活中延伸运用混合策略，首先要克服对一致性的崇拜。因为人们都特别重视一致性，言行要一致，前后要一致，如果一致，很容易就成为伪君子。但一致性崇拜必然导致悖论：现代社会重视多元，主张宽容，但是推到极致，就会出问题：对于不宽容，要不要宽容？对不宽容的宽容会导向不宽容；对不宽容的不宽容也是一种不宽容。

对疯子随机发疯是一种博弈手段和理性选择，是避免被疯子拿捏的唯一手段。

王烁用博弈论读懂中美关系

1.永恒的国家间战争

在国际与国内之间有一道天堑。在国内，有政府为社会提供安全保证；国家之间处于无政府状态，没有真正的超国家权威。各国用自己的暴力机构自助。

公平、正义、秩序，这些人人都希望拥有的美好东西，在国际与国内之间的天堑面前经受拷问。

理想主义者希望尝试跨过这道天堑，国家之间通过共享价值观，约定规则，构建机制。

现实主义者认为公平、正义、秩序只存在于天堑内侧，天堑之外，国家利益说话。

现实对现实主义者有利，因为生存挑战越大，道德选择越少。

没有安全保证，国家之间的相互信任是脆弱的。

有四样东西导致滑向战争：

（1）安全悖论：

一个国家不能辩解说追求的只是自己的安全。因为你越安全，其他国家相对而言就越不安全。

（2）囚徒困境：

不论他国事实上是善意还是恶意，你对他们怀有恶意对你来说总是占优策略。

（3）可信度问题：

对方如何能相信你的一片赤诚？而且忠诚是动态的，大多数时候是实力决定抱负。国家还会更换领导人。

（4）预言的自我实现：

你越觉得必有一战，战争就越是不可避免。

因为担心，所以要准备，你的准备引发对方担心，也做准备，担心相互促进，越来越强。

经济上的相互依存有利于减少冲突爆发的可能，但无法排除。

经贸往来为贸易双方创造共同利益，是正和博弈，但利益在分配环节仍是零和博弈。

相互依存关系有可能是不对称的，不同领域的不对称的相互依赖关系，有可能因此被强行挂钩，依次解体。

2.国家间的安全关系与博弈空间

如果国家之间只看重相对力量的变化，那么只剩下零和博弈，这个时候最危险。

现实主义的三个经典假设：

（1）国家之间都处于无政府状态

（2）每个国家都拥有武力

（3）每个国家都对其他国家的意图无法完全放心

为了生存，所有国家都必然追求力量。国家对力量的追逐不可能浅尝辄止，也不会满足于进入大国丛林，而是要获得相对于其他大国的绝对优势成为霸主为主。

国家之间的安全关系是零和博弈：就算是自己是最强大的，也不能容忍别人变得强大起来，领先优势的被蚕食就是一种失败，会引起疑虑和担心，会削弱信心，而信心代表对未来的估值。

这场零和游戏与国家性质无关，与民族偏好无关，既无关乎政体，更无关乎善恶。

3.避开战争的方式

如果中美开战，战事可能会怎样展开？怎样避免开战？

（1）战区主要在东亚海空，包括海上、海底、空中、太空。

（2）除了网络战以外，总体是场地区性和常规性战争。

（3）中国不会攻击美国本土。

可能会出现的结果：

（1）不会有决定性的后果，没有清楚和绝对的胜者。

（2）如果近期爆发，美国军力会实质性受损；如果远期爆发，损失会更大，因为中国军力在迅速成长；但无论近期或远期，中国军力损失会更大。

（3）战争激烈与否取决于领导人在战事开启时所下的决心，战事长度取决于双方何时丧失继续作战的意志。

（4）东亚海空成为战区，中国经济将遭受重创，战事变得漫长更是有灾难性的后果；美国经济也会受到冲击，但主要限于双边贸易损失；国际形势对中国会进一步恶化。

（5）爆发最可能的原因是一方误判：为防止误判，必须向对方清楚地表明自己已经做好长期激战的准备。

以长期激战作威慑，才能制止冒险主义。

做好长期激战的威慑的动作必然会传递出信号，这些信号有可能降低冲突的可能，也有可能增加冲突的可能。

这个世界上没有完全透明的信号，也没有单一后果的行动，推动历史之轮转动的，往往是意外。

我的博弈论学习笔记

最新文章

热门文章

随机文章

我的博弈论学习笔记

26年初中全科目教辅资料(789年级常用学习资料分享)语文/数学/英语/政史地/物化生(推荐收藏)

中医学习笔记合集 2026.2.28更新

最新文章

热门文章

随机文章