博弈论入门/囚徒困境

让我们从一个游戏开始，这个游戏通常被称为囚徒困境，是用来展示博弈论的经典例子。它通常通过这个故事来解释，尽管实际的游戏称为囚徒困境 - 通常简称为PD，并不局限于这种情况。它背后的基本动力学可以用来描述各种各样的现象。

故事

安迪和鲍勃两个人在一次持械抢劫案后被捕。警方有足够的证据可以指控两人盗窃逃跑车辆，但没有足够的证据可以指控他们进行实际的持械抢劫。然而，如果警方能够从两人中任何一人那里得到认罪，他们就可以想象到指控两人进行持械抢劫。

警方将两人分别关在两个房间里，并向他们分别提出了同样的提议

如果安迪认罪，而鲍勃保持沉默，那么安迪就会逍遥法外，而鲍勃将被指控抢劫并被判处 10 年监禁。当然，这反过来也一样。如果鲍勃认罪，而安迪保持沉默，安迪将被判处 10 年。

如果安迪认罪，鲍勃也认罪，那么他们两人都将被判处 7 年监禁。

如果安迪和鲍勃都保持沉默，那么他们两人都将被判处 2 年监禁，以负责逃跑车辆的抢劫罪。

这两个囚犯只能在没有任何联系方式的情况下做出决定。问题是：他们每个人都选择了什么？

解决方案

每次玩这个游戏都会出现的结果（假设每个人都为了自己的最佳利益行事）是，安迪和鲍勃都会选择认罪，导致他们每个人被判处 7 年。这个答案似乎是违反直觉的，不是吗？为什么两个玩家都会选择认罪，这显然比他们都保持沉默并被判处 2 年要糟糕？不仅如此，就总的监禁年限而言，这是最糟糕的结果！

解释

两个玩家都选择认罪的原因很容易解释。让我们谈谈 A 人（对于安迪成立的，对于鲍勃也同样成立，因为他们处于相同的境地）。

以下解释假设安迪和鲍勃不能直接或间接地相互传达他们的选择。

安迪有以下矩阵

如果他认罪

最短监禁时间：0 年（如果鲍勃保持沉默）
最长监禁时间：7 年（如果鲍勃认罪）

如果他保持沉默

最短监禁时间：2 年（如果鲍勃保持沉默）
最长监禁时间：10 年（如果鲍勃认罪）

**表格格式**
	鲍勃保持沉默	鲍勃认罪
安迪认罪	0	7
安迪保持沉默	2	10

该游戏的预期收益（策略将提供的平均收益量）更好 - 在这种情况下，认罪的预期监禁时间为 3.5 年，而保持沉默的预期监禁时间为 6 年 - 如果安迪认罪。因此，从理性的角度来看，安迪应该选择认罪而不是保持沉默。

此外，鲍勃的行为无关紧要 - 安迪认罪总是对自己有利。如果鲍勃认罪，安迪可以得到认罪的 7 年或保持沉默的 10 年，而如果鲍勃保持沉默，安迪可以得到认罪的 0 年或保持沉默的 2 年。不幸的是，对于 A 人来说，这对于 B 人也同样成立 - 他认罪总是对自己有利。这意味着如果两个主体都做对自己有利的事，他们将在监狱里一起呆 7 年！这表明在许多游戏中，“最佳”解决方案 - 结果总效用最高的那个 - 并不是最终会出现的那个。

← 策略性游戏 · 矩阵表示法 →