博弈论入门/囚徒困境
让我们从一个游戏开始,这个游戏通常被称为囚徒困境,是用来展示博弈论的经典例子。它通常通过这个故事来解释,尽管实际的游戏称为囚徒困境 - 通常简称为PD,并不局限于这种情况。它背后的基本动力学可以用来描述各种各样的现象。
安迪和鲍勃两个人在一次持械抢劫案后被捕。警方有足够的证据可以指控两人盗窃逃跑车辆,但没有足够的证据可以指控他们进行实际的持械抢劫。然而,如果警方能够从两人中任何一人那里得到认罪,他们就可以想象到指控两人进行持械抢劫。
警方将两人分别关在两个房间里,并向他们分别提出了同样的提议
- 如果安迪认罪,而鲍勃保持沉默,那么安迪就会逍遥法外,而鲍勃将被指控抢劫并被判处 10 年监禁。当然,这反过来也一样。如果鲍勃认罪,而安迪保持沉默,安迪将被判处 10 年。
- 如果安迪认罪,鲍勃也认罪,那么他们两人都将被判处 7 年监禁。
- 如果安迪和鲍勃都保持沉默,那么他们两人都将被判处 2 年监禁,以负责逃跑车辆的抢劫罪。
这两个囚犯只能在没有任何联系方式的情况下做出决定。问题是:他们每个人都选择了什么?
每次玩这个游戏都会出现的结果(假设每个人都为了自己的最佳利益行事)是,安迪和鲍勃都会选择认罪,导致他们每个人被判处 7 年。这个答案似乎是违反直觉的,不是吗?为什么两个玩家都会选择认罪,这显然比他们都保持沉默并被判处 2 年要糟糕?不仅如此,就总的监禁年限而言,这是最糟糕的结果!
两个玩家都选择认罪的原因很容易解释。让我们谈谈 A 人(对于安迪成立的,对于鲍勃也同样成立,因为他们处于相同的境地)。
以下解释假设安迪和鲍勃不能直接或间接地相互传达他们的选择。
安迪有以下矩阵
如果他认罪
最短监禁时间:0 年(如果鲍勃保持沉默)
最长监禁时间:7 年(如果鲍勃认罪)
如果他保持沉默
最短监禁时间:2 年(如果鲍勃保持沉默)
最长监禁时间:10 年(如果鲍勃认罪)
鲍勃保持沉默 | 鲍勃认罪 | |
---|---|---|
安迪认罪 | 0 | 7 |
安迪保持沉默 | 2 | 10 |
该游戏的预期收益(策略将提供的平均收益量)更好 - 在这种情况下,认罪的预期监禁时间为 3.5 年,而保持沉默的预期监禁时间为 6 年 - 如果安迪认罪。因此,从理性的角度来看,安迪应该选择认罪而不是保持沉默。
此外,鲍勃的行为无关紧要 - 安迪认罪总是对自己有利。如果鲍勃认罪,安迪可以得到认罪的 7 年或保持沉默的 10 年,而如果鲍勃保持沉默,安迪可以得到认罪的 0 年或保持沉默的 2 年。不幸的是,对于 A 人来说,这对于 B 人也同样成立 - 他认罪总是对自己有利。这意味着如果两个主体都做对自己有利的事,他们将在监狱里一起呆 7 年!这表明在许多游戏中,“最佳”解决方案 - 结果总效用最高的那个 - 并不是最终会出现的那个。