高级微观经济学/策略

策略

纯策略

一个（纯）策略指定了玩家将在所有可能的情况下如何反应，在这些情况下他/她可能会被要求行动。策略 $s_{i}$ 将信息集 $\mathbf {\mathcal {H}}$ 映射到动作集 $\mathbf {\mathcal {A}}$
$s_{i}:\mathbf {\mathcal {H}} \rightarrow \mathbf {\mathcal {A}}$
使得 $s_{i}(H)\in C(H)\;\forall \;H\in \mathbf {\mathcal {H}}$
要求策略仅在每个信息集中指定可行的动作。

策略空间的基数

一个有 $m$ 个信息集的玩家，在每个信息集 $H$ 中从 $b_{k}$ 个动作中选择，那么可能的数量

策略组合

一个策略组合 $s=(s_{1},\dots ,s_{I})$ 指定了每个玩家的一组策略，也可以写成 $s=(s_{i},s_{-i})$

在接下来的讨论中，集合 $\mathbf {\mathbb {S} } _{i}$ 表示玩家 $i$ 可用的所有纯策略的集合，集合
$\mathbf {\mathbb {S} } =\times _{i=1}^{I}\mathbf {\mathbb {S} } _{i}$ 是纯策略组合的集合。

随机策略

混合策略

混合策略 $\sigma$ 为每个纯策略 $s_{i}\in \mathbf {\mathbb {S} }$ 分配一个将被采用的概率，
$\sigma _{i}:\mathbf {\mathbb {S} } _{i}\rightarrow [0,1]$
使得 $\sum _{s_{i}\in \mathbf {\mathbb {S} } _{i}}\sigma _{i}(s_{i})=1$
要求分配给 $\mathbf {\mathbb {S} }$ 元素的概率总和为 1， $\sigma$ 是 $\mathbf {\mathbb {S} }$ 上的概率分布函数。

混合扩展

混合扩展，单纯形 $\Delta (\mathbf {\mathbb {S} } _{i})$ ，表示在纯策略集合 $\mathbf {\mathbb {S} } _{i}$ 上的所有混合策略的空间。
$\Delta (\mathbf {\mathbb {S} } _{i})=\left\{(\sigma _{1,i},\dots ,\sigma _{M,i}):\sigma _{m,i}\geq 0\;\forall \;m=1,\dots ,M{\mbox{ and }}\sum _{m=1}^{M}\sigma _{m,i}=1\right\}$

预期效用

给定一个混合策略分布 $\sigma$ ，预期效用 $E_{\sigma }[u_{i}(s)]$ 将所有可能的结果映射到实数线上。直观地说，计算预期效用需要将每个纯策略分布 $u_{i}(s)$ 相关的效用，按每个分布被选择的概率进行加权，
$E_{\sigma }[u_{i}(s)]=\sum _{s\in \mathbf {\mathbb {S} } }Pr(s)\cdot u_{i}(s)$
混合分布 $\sigma$ 为每个纯策略 $s$ 分配概率，这意味着
$Pr(s)\equiv [\sigma _{1}(s_{1})\cdot \sigma _{w}(s_{2})\dots \cdot \sigma _{I}(s_{I})]=\prod _{i=1}^{I}\sigma _{i}(s_{i})$
因此， $\sigma$ 的预期效用为
$E_{\sigma }[u_{i}(s)]=\sum _{s\in \mathbb {\mathbf {S} } }\left[\left(\prod _{i=1}^{I}\sigma _{i}(s_{i})\right)u_{i}(s)\right]$

行为策略

为了替代在纯策略中随机化，随机化策略可以写成一个元组，该元组包含在每个信息集的可用行动上的一系列概率分布。因此，行为策略指定
$\forall H\in \mathbf {\mathcal {H}} {\mbox{ and action }}a\in \mathbf {\mathcal {A}} {\mbox{ a probability }}\lambda _{i}(a,H)\geq 0$
使得 $\sum _{a\in C(H)}\lambda (a,H)=1\;\forall \;H\in \mathbf {\mathcal {H}}$

行为策略与混合策略

行为策略和混合策略之间的关键区别在于**随机化发生的时间**。对于混合策略，玩家在**游戏开始之前**对纯策略集合进行随机化。对于行为策略，随机化发生在**游戏进行过程中**。一个**行为策略混合**允许两种类型的随机化，它允许在所有行为策略的空间中指定混合策略， $\sigma _{i}$ ，该策略将正概率分配给一个或多个（有限）行为策略 $(b_{1,i},\dots ,b_{k})$ 。
任何具有**完美记忆**的游戏都允许行为策略和混合策略对，它们表现出**结果（实现）等效性**，这意味着每种策略在结果上产生相同的概率分布。任何混合策略所隐含的结果概率分布也可以从一个（唯一的？）行为策略中得到。