无论在自然界还是人类社会,合作或者背叛都是随处可见的现象。囚徒困境就是抓住了人们之间不信任和需要相互防范背叛的一面,使人们陷入了两难选择的境地。人们追求自我利益的心理导致人们在没有未来的一次性博弈中大多选择了不合作。
我们先来假设双方之间存在一个一次性的博弈,那么结果一定是各人自扫门前雪;如果博弈是连续多次发生的,那么彼此之间合作的可能系数就会增大。每一次人际交往其实都可以简化为两种基本选择:合作还是背叛。在人际交往中普遍存在囚徒困境:双方明知合作带来双赢,但理性的自私和信任的缺乏导致合作难以产生。而且,如果博弈是一次性的,那么这必然加剧双方进行坦白的决心,选择相互背叛。
在这样的博弈中,背叛是个人的理性选择,但是个体的理性却直接导致集体的非理性。基于这样的思路似乎没有任何方法能够让我们逃脱两败俱伤的局面。资深的博弈论专家罗伯特·奥曼在1959年指出,人与人的长期交往是避免短期冲突、走向协作的重要机制。
在任何博弈中,表现最好的策略直接取决于对方采用的策略,特别是取决于这个策略为发展双方合作留出多大的余地。这个原则的基础是下一步对于当前一步的影响足够大,即未来是重要的。总的来说,如果你认为今后将难以与对方相遇,或者你不太关心自己未来的利益,那么,你可以现在就选择背叛,而不用担心未来的后果。
而现实生活中反复交往的人际关系,则是一种“不定次数的重复博弈”。奥曼通过自己的推导十分严密地证明,在较长的视野内,人与人交往关系的重复所造成的“低头不见抬头见”的关系,可以使自私的主体之间走向合作。
这可以解释许多商业行为。一次性的买卖往往发生在双方以后不再有买卖机会的时候,特点是尽量牟取暴利并且带欺骗性。而靠“熟客”“回头客”便是通过薄利行为使得双方能继续合作下去。
事实上,重复博弈也更逼真地反映了日常人际关系。在重复博弈中,合作契约的长期性能够纠正人们短期行为的冲动。这在日常生活里是具有普遍性的。
我们已经知道,由于一次性博弈的大量存在,引发了很多不合作的行为。而且,即便是在重复博弈中,合作的一方在遭到对方背叛之后,往往没有机会也没有还手之力去进行报复。比如,商家之间的违约行为,国家之间的核威慑。在这些情况下,要使交易能够进行,并且防止不合作行为,必须设置严格的惩罚背叛行为的机制。
张老师是某班的班主任,他经常组织本班同学参加集体活动,比如外出旅游。但在组织的过程中,他遇到了一个棘手的问题。在一次集体活动中,张老师通知全班同学早上8∶00到校门口集合。结果有几个同学拖拖拉拉,导致大家8∶15才出发,从而白白耽误了一刻钟。
在此后的集体活动中,张老师改变了策略,虽然真实的集合时间仍是8∶00,但是他通知大家7∶45集合,结果最晚的几个同学也在8∶00赶到,从而准时出发。张老师对自己的策略感到很满意。
但是好景不长,大家又回来了有人迟到的困局,原来时间久了,同学们都发现了张老师通知的集合时间故意提前,甚至可以根据张老师的通知猜测出真实的集合时间。因此,每当张老师通知7∶45集合时,大家仍然按照真实的集合时间,也就是8∶00来做安排,从而导致几个同学在8∶00后才赶来。那些准时即7∶45到达集合地点的同学由于白白等待都开始抱怨,以后的集合中也变得不那么守时了。
张老师的目标是通知合适的集合时间。从而达到准时出发且避免同学因为等待而有所抱怨。那么应当制定怎样的策略,才能使活动准时开始并使大家都满意呢?
在迟到的问题中,存在着老师与学生、学生与学生之间的博弈。实际上也是一种多人的囚徒困境。因为每个学生都知道,其他学生的占优策略是选择到达集合地点的时间,既不能太早,以免白白浪费等待的时间;又不能太晚,以免承担耽误大家时间的责任。
要破解这个困境,老师有两个策略选择:一是只要过了集合的时间,就不再等下去,让迟到的同学独自承担责任。这种责任和相应的惩罚对同学会造成很大的损失,他们就不会再迟到了。二是如果迟到的学生比较多。老师就等某个数量的学生到齐以后马上出发,而让迟到时间过长的那些同学承担责任。
一般说来,博弈中双方合作时得益最大,但若一方不遵守合作约定,必定是另一方合作者吃亏。所以需要引入惩罚机制:谁违约,就要处罚他,使他不敢违约。一位玩家之所以会与另外一位合作,只是因为他知道,如果他今天被骗,明天还能对欺骗实施惩罚。奥曼先生把这一洞察结论称之为“无名氏定理”。
博弈智慧
只有对迟到的学生进行惩罚,迟到问题才能解决,一句话,也就是实行一份带剑的契约。由此我们可以悟出一条定律,合作是有利的“利己策略”。但它必须符合:按照你希望别人对待的方式来对别人,但他们必须也按同样方式行事才可以。