一个(纯)策略指定了玩家将在所有可能的情况下如何反应,在这些情况下他/她可能会被要求行动。策略将信息集映射到动作集
使得
要求策略仅在每个信息集中指定可行的动作。
一个有个信息集的玩家,在每个信息集中从个动作中选择,那么可能的数量
一个策略组合指定了每个玩家的一组策略,也可以写成
在接下来的讨论中,集合 表示玩家 可用的所有纯策略的集合,集合
是纯策略组合的集合。
混合策略 为每个纯策略 分配一个将被采用的概率,
使得
要求分配给 元素的概率总和为 1, 是 上的概率分布函数。
混合扩展,单纯形 ,表示在纯策略集合 上的所有混合策略的空间。
给定一个混合策略分布 ,预期效用 将所有可能的结果映射到实数线上。直观地说,计算预期效用需要将每个纯策略分布 相关的效用,按每个分布被选择的概率进行加权,
混合分布 为每个纯策略 分配概率,这意味着
因此, 的预期效用为
为了替代在纯策略中随机化,随机化策略可以写成一个元组,该元组包含在每个信息集的可用行动上的一系列概率分布。因此,行为策略指定
使得
行为策略和混合策略之间的关键区别在于**随机化发生的时间**。对于混合策略,玩家在**游戏开始之前**对纯策略集合进行随机化。对于行为策略,随机化发生在**游戏进行过程中**。一个**行为策略混合**允许两种类型的随机化,它允许在所有行为策略的空间中指定混合策略,,该策略将正概率分配给一个或多个(有限)行为策略。
任何具有**完美记忆**的游戏都允许行为策略和混合策略对,它们表现出**结果(实现)等效性**,这意味着每种策略在结果上产生相同的概率分布。任何混合策略所隐含的结果概率分布也可以从一个(唯一的?)行为策略中得到。