博弈论是指利益冲突的两个或两个以上的人进行决策的一种理论。参与者称为局中人,每个局中人都企图预测其他局中人的可能的选择,以确定自己的最优对策。博弈论就是要研究如何在这种存在不确定性的相互制约关系中进行合理的战略规划。
博弈论又称“对策论”,按照描述形式分为:扩展型、策略型、合作型;依博弈各方总得失之和分为零和博弈与非零和博弈。依局中人数目分为两人博弈和N人博弈;依局中人之间是否可以达成约束性协定分成合作博弈和非合作博弈等等。
一般的博弈问题由三个要素所构成:即局中人(players)又称当事人、参与者、策略等等的集合,策略(strategies)集合以及每一对局中人所做的选择和赢得(payoffs)集合。其中所谓赢得是指如果一个特定的策略关系被选择,每一局中人所得到的效用。
“囚徒的两难选择”是博弈论的经典案例。一位富翁在家中被杀,财物被盗。警方在此案的侦破过程中,抓到两个犯罪嫌疑人,斯卡尔菲丝和那库尔斯,并从他们的住处搜出被害人家中丢失的财物。但是,他们矢口否认曾杀过人,辩称是先发现富翁被杀,然后只是顺手牵羊偷了点儿东西。于是警方将两人隔离,分别关在不同的房间进行审讯。由地方检察官分别和每个人单独谈话。检察官说:“由于你们的偷盗罪已有确凿的证据,所以可以判你们一年刑期。但是,我可以和你做个交易。如果你单独坦白杀人的罪行,我只判你三个月的监禁,但你的同伙要被判十年刑。如果你拒不坦白,而被同伙检举,那么你就将被判十年刑,他只判三个月的监禁。但是,如果你们两人都坦白交代,那么,你们都要被判五年刑。”
斯卡尔菲丝和那库尔斯该怎么办呢?他们面临着两难的选择——坦白或抵赖。显然最好的策略是双方都抵赖,结果是大家都只被判一年。但是由于两人处于隔离的情况下无法串供。所以,按照亚当·斯密的理论,每一个人都是从利己的目的出发,他们选择坦白交代是最佳策略。因为坦白交代可以期望得到很短的监禁——三个月,但前提是同伙抵赖,显然要比自己抵赖要坐10年牢好。这种策略是损人利己的策略。不仅如此,坦白还有更多的好处。如果对方坦白了而自己抵赖了,那自己就得坐10年牢。太不划算了!因此,在这种情况下还是应该选择坦白交代,即使两人同时坦白,至多也只判5年,总比被判10年好吧。所以,两人合理的选择是坦白,原本对双方都有利的策略(抵赖)和结局(被判1年刑)就不会出现。这样两人都选择坦白的策略以及因此被判五年的结局被称为“纳什均衡”,也叫非合作均衡。因为,每一方在选择策略时都没有“共谋”(串供),他们只是选择对自己最有利的策略,而不考虑社会福利或任何其他对手的利益。也就是说,这种策略组合由所有局中人(也称当事人、参与者)的最佳策略组合构成。没有人会主动改变自己的策略以便使自己获得更大利益。“囚徒的两难选择”有着广泛而深刻的意义。
个人理性与集体理性的冲突,各人追求利己行为而导致的最终结局是一个“纳什均衡”,也是对所有人都不利的结局。他们两人都是在坦白与抵赖策略上首先想到自己,这样他们必然要服长的刑期。只有当他们都首先替对方着想时,或者相互合谋(串供)时,才可以得到最短时间的监禁的结果。
在单独的一次博弈中存在较大的机会主义,也就是只要有可能,每个人都倾向于利用自身的优势为自己谋求最大化的利益,这就可能给对方带来损失,而对方也是同样的人,只要有机会也会这么做,于是采取措施来防范对方,白白增加了很多“交易成本”。而进行重复博弈可以减少欺骗,增加相互的信任,因为上当受骗的人能够进行“一报还一报”的报复行动,报复来报复去的长期结果是,理性的人们会认识到,这样大家谁也没有好处,于是就把相互的欺骗行为减少了,诚信就产生了。
所谓重复博弈是指同样结构的博弈重复多次,其中的每次博弈称为“阶段博弈”。重复博弈是动态博弈中的重要内容,它可以是完全信息的重复博弈,也可以是不完全信息的重复博弈。
你到菜场去买菜,当你担心上当受骗而犹豫不决时,有时候那卖菜的摊主便会对你说:“你别担心,我不会骗你,我是天天在这里卖菜的!”他强调这个“天天”在这里卖菜,你便会放下心来,与之成交,因为他的这句话,“翻译”成经济学的语言就是“我跟你是‘重复博弈’”。
重复博弈的结果是博弈双方走出了“囚徒困境”,能降低双方交易成本、合理配置社会资源、使其“自私自利”的行为最大限度地增进社会福利。
经济学小贴士
我们身边的许多行为、现象都可用博弈来概括,尤其是在交易环节,了解博弈论十分重要。因为交易双方存在信息不完全和复杂的特征,这使得双赢的合作结果不可能轻松地实现。