跳转到内容

信息市场策略/背景/纳什均衡

来自维基教科书,开放的书籍,开放的世界

博弈论是一组理论工具,用于预测人们在战略互动中的行为。[1] 博弈论的大部分内容超出了本书的范围,但对某些博弈论方面的了解对于理解一些内容是必要的。在本节中,我们介绍一些关于玩家同时行动的博弈的背景知识。特别地,我们涵盖了公共物品,这对思考信息商品的创造很重要,以及协调博弈,这对研究具有网络外部性的市场很重要。

博弈矩阵

[编辑 | 编辑源代码]

博弈论建立在博弈的结果和策略的基础上。博弈包括两个或多个受博弈结果影响的“玩家”。每个玩家都有可能采取的一组可能的“行动”。博弈矩阵是一个表格,它显示了博弈中每个玩家所有可能的行动,以及每个玩家从所有可能策略中获得的“收益”或回报。从博弈矩阵中,可以可视化某个玩家的策略,并预测博弈的结果。

示例:公共物品博弈

[编辑 | 编辑源代码]

公共物品是不可排斥的(没有人可以阻止其他人使用它)且非竞争性的(有足够多可供使用)。公共物品博弈是指每个玩家可以选择在公共物品上投资多少,而该公共物品的收益将分配给所有玩家,无论谁选择投资。在信息商品的情况下,这可能被认为是公共广播,其中个人可以选择向公共广播捐赠不同的金额(或根本不捐赠),但无论如何都可以收听广播。

为了创建一个简单的模型,假设有一个只有两个玩家的博弈。每个人都有选择在公共广播中投资 0 或 4 的选择。广播的质量随着投资的增加而提高,回报为总投资的 3/4。因此,如果 是总共贡献的金额,那么每个玩家将获得 的收益。

  • 当只有一个玩家投资时,该玩家会净亏损,因为他们为商品支付了 4 但只获得了 3 的收益,而选择不投资的玩家获得了 3 的净收益。
  • 当两个玩家都投资时,每个玩家获得 6 的收益,他们的净收益为 2。
  • 当两个玩家都不投资时,他们都没有支付或获得任何收益,因此他们的净收益为 0。

我们可以将这些视为下面博弈矩阵中的收益。玩家 1 选择确定矩阵中哪一行使用的策略,而玩家 2 选择确定表格中哪一列使用的策略。收益按顺序列出,首先是行玩家的收益,然后是列玩家的收益。例如,如果玩家 1 选择投资 4,而玩家 2 选择投资 0,那么这将使玩家处于表格的左下角单元格,显示收益(-1,3)。这意味着如果玩家选择这些策略,玩家 1 将获得 -1 的净收益,而玩家 2 将获得 3 的净收益。

公共物品 玩家 2
投资 0 投资 4
玩家 1 投资 0 0, 0 3, -1
投资 4 -1, 3 2, 2

纳什均衡

[编辑 | 编辑源代码]

纳什均衡是指博弈中任何玩家都没有动力单方面改变其决定的情况。这是一个均衡,因为没有动力让玩家改变他们的行为。

请注意,这并不意味着玩家一定对结果感到满意。玩家可能都认为,如果他们都改变策略,可能会出现更好的结果,但没有单个玩家可以通过改变策略来改善自己的收益。

为了更技术化一点,纳什均衡建立在最佳反应的概念上。玩家的最佳反应是他们给定另一个玩家选择的策略所能选择的最佳策略。有可能(并且在公共物品博弈中将会出现这种情况)玩家的最佳反应与其他玩家选择什么策略无关。但是,也可能(并且在协调博弈中将会出现这种情况)玩家对其他玩家可能选择的每种可能策略都有不同的最佳反应。

有了最佳反应的概念,纳什均衡可以重新表述为

纳什均衡是策略的集合(每个玩家一个),使得每个玩家的策略都是对其他玩家策略的最佳反应。

示例:公共物品博弈

[编辑 | 编辑源代码]

在像上面公共物品博弈这样的博弈矩阵中,寻找纳什均衡的方法是问一系列“如果”问题

  • 如果玩家 2 选择投资 0?那么玩家 1 的最佳反应将是投资 0。这可以通过比较玩家 1 的收益来看出。如果玩家 2 投资 0,那么博弈肯定会在左列进行。那么玩家 1 在投资 0 获得 0 的收益,或者投资 4 获得 -1 的收益之间做出选择。
  • 如果玩家 2 选择投资 4?那么玩家 1 的最佳反应将是投资 0。由于玩家 2 选择了表格的右侧,因此玩家 1 在投资 0 获得 3 的收益,或者投资 4 获得 2 的收益之间做出选择。
  • 如果玩家 1 选择投资 0(或投资 4)?我们从玩家 2 的角度做同样的“如果”推理。玩家 2 思考他们对玩家 1 每种可能策略的最佳反应是什么。在这个博弈中,玩家 2 的最佳反应始终是投资 0。

因此,这个博弈的纳什均衡是每个玩家都投资 0 的情况。这个博弈的纳什均衡显示了搭便车问题。问题不在于有人在没有支付投资的情况下获得收益。问题是,如果有人可以在不投资的情况下获得收益,那么很有可能没有人会投资,任何人都不会获得收益。

这对于信息商品非常重要,因为对于信息商品,人们总是担心潜在的创作者(作家、发明家等)如果其他人可以在不支付的情况下从信息商品中获益,那么他们将不会费心投资创建信息商品。

协调博弈

[编辑 | 编辑源代码]

纯粹协调博弈

[编辑 | 编辑源代码]

在一些协调博弈中,玩家唯一关心的是他们要进行协调。在这些博弈中,他们并不关心哪一个纳什均衡出现,而是其中一个出现。

例如,假设有一个小岛国刚建好第一条公路。还没有关于应该在道路的哪一边行驶的传统或法律。如果两辆车迎面驶来,一辆在右边行驶(从他们的角度来看,右边),另一辆在左边行驶(从他们的角度来看),他们将发生正面碰撞,并度过糟糕的一天。在博弈矩阵中,当玩家 1 在右边行驶而玩家 2 在左边行驶时,两种可能性都显示出(-10,-10)的收益,反之亦然。然而,如果他们都在右边行驶,他们会互相通过,一切都会顺利进行。在博弈矩阵中,当两个玩家都选择右边策略时,显示出(1,1)的收益。由于重要的是他们不是在右边行驶,而是为了不发生碰撞而行驶,因此如果两个玩家都在左边行驶,他们也会获得(1,1)的收益。

应该在路的哪边行驶呢? 玩家 2
左边 右边
玩家 1 左边 1, 1 -10, -10
右边 -10, -10 1, 1

协调与分歧

[编辑 | 编辑源代码]

在其他协调博弈中,玩家通过协调仍然能获益,但他们对哪个均衡更可取存在分歧。这个经典的,尽管是性别歧视的,例子被称为“性别之战”。故事说,一个男人和一个女人想要约会,他们都更喜欢一起做某事,而不是分开做事情。然而,男人更喜欢约会去观看足球比赛,而女人更喜欢约会去观看芭蕾舞。

在博弈矩阵中,这表示为每个玩家选择芭蕾舞足球作为策略。如果他们选择不同的东西,他们就没有约会,他们的收益是(0,0)。如果他们都选择芭蕾舞,他们会更开心,但特别是女人会更开心,所以男人获得 1 的收益,女人获得 2 的收益。如果他们都选择足球,他们很开心在一起,但男人更开心,获得 2 的收益,而女人获得 1 的收益。

性别之战 女人
芭蕾舞 足球
男人 芭蕾舞 1, 2 0, 0
足球 0, 0 2, 1

让我们用更适合信息商品主题的术语重新描述相同的博弈。在一个企业中,重要的是工程方面的极客能够与财务方面的会计师进行沟通,但他们在数学软件方面有不同的品味。极客想要使用Matlab,而会计师想要使用Excel。如果他们每个人都选择他们个人喜欢的软件,他们可以完成一些私人工作,但如果没有大量额外麻烦,沟通将不会发生。

在博弈矩阵中,这显示为如果玩家选择不同的数学软件,他们会获得(2,2)的收益。如果他们在 Excel 上协调,那么会计师会非常开心,获得 10 的收益,而工程师则很高兴他们能够完成工作,但仍然没有那么开心,获得 6 的收益。如果他们在 Matlab 上协调,收益会反转。

数学软件 极客
Excel Matlab
会计师 Excel 10, 6 2, 2
Matlab 2, 2 6, 10

冒险的协调

[编辑 | 编辑源代码]

有时,在特定均衡上协调显然更好,但存在一些风险。讨论这个想法的经典博弈被称为“猎鹿”。故事说,两个猎人要去寻找晚餐。如果他们分别去猎兔子,他们每个人都会捕获一只兔子,然后吃晚餐。如果他们一起狩猎,他们可以捕获一头鹿,然后有很多晚餐。然而,如果一个人独自去猎鹿,那个猎人什么也捕获不到,会饿肚子,而另一个猎人仍然可以捕获兔子。

这在博弈矩阵中显示为如果他们都选择鹿,则获得(5,5)的收益,如果他们都选择兔子,则获得(1,1)的收益。此外,如果只有一个选择鹿,那么那个选择鹿的人获得 0 的收益。这个博弈仍然是一个协调博弈,有两个纳什均衡:(鹿鹿)和(兔子兔子)。

这个协调博弈的特殊(可能是特别糟糕)之处在于,如果一个玩家认为另一个玩家可能不会选择鹿,那么担心这个玩家可能会选择兔子以求安全。另一个玩家可能也这么想,然后他们会陷入不太理想的均衡。在收益非常高的矩阵中尤其如此。

休斯顿大学的一项研究[2]发现,当收益规模较小时,如以下所示,玩家 91.7% 的时间会选择冒险选项。但当他们以更大的收益规模进行游戏时,冒险选项只被选择了 69.4% 的时间。耐心在猎鹿中也起着作用。当进行反复测试时,就像这对夫妇每天都去狩猎一样,冒险决策在实验进行得越久,结果往往越好。

乔治梅森大学进行了一项替代性研究[3],其结果证明是反直觉的。他们的研究表明,风险厌恶,甚至认知能力对参与者选择“鹿”的频率影响微乎其微,而耐心有小到中等的影响。在本实验中发现,最重要的因素是玩家是男性且随和。男性在鹿-鹿的结果中高出 14%,随和的人高出 6%。

猎鹿 玩家 2
鹿 兔子
玩家 1 鹿 5, 5 0, 1
兔子 1, 0 1, 1

重新描述一个更适合主题的类似博弈。假设在 1985 年,一家企业的两个地区办事处之间交换了大量的邮件。他们正在考虑切换到传真机。如果两个地区办事处都开始使用传真机,他们将节省大量邮寄费用。如果只有一个办事处获得传真机,他们将白白地付出费用和麻烦,因为他们将无法与另一个办事处交换传真。

这在博弈矩阵中显示为如果他们都选择邮件(因为没有变化),则获得(0,0)的收益,如果他们都选择传真,则获得(2000,2000)的收益,因为他们可以通过切换到传真机来节省大量成本。但是,如果只有一个切换,他们最终会继续交换邮件。因此,坚持使用邮件的人获得 0 的收益,而获得传真的人获得 -300 的收益。


邮件或传真 玩家 2
传真 邮件
玩家 1 传真 2000, 2000 -300, 0
邮件 0, -300 0, 0

参考资料

[编辑 | 编辑源代码]
  1. 博弈论被经济学家广泛使用,但也用于研究军事战略、政治、家庭行为以及许多其他人类互动领域。它有时也被用来研究其他领域,包括进化生物学和计算机工程。
  2. (http://www.uh.edu/econpapers/RePEc/hou/wpaper/2006-01.pdf)
  3. http://papers.ssrn.com/sol3/papers.cfm?abstract_id=1764272
华夏公益教科书