跳转到内容

概率/分布的性质

来自维基教科书,开放世界中的开放书籍


回想一下,pdf(或 cdf)描述了随机变量完全的随机行为。然而,我们有时会发现 pdf(或 cdf)过于复杂,只想知道关于随机变量的一些部分信息。鉴于此,我们在本章中研究了一些分布的性质,这些性质提供了随机变量随机行为的部分描述。

此类部分描述的一些示例包括

  • 位置(例如,pdf 位于左侧还是右侧?),
  • 分散度(例如,pdf 是“尖锐”还是“扁平”?),
  • 偏度(例如,pdf 是对称的,向左偏斜还是向右偏斜?),以及
  • 尾部性质(例如,pdf 具有“轻”尾部还是“重”尾部?)。

我们可以定性地描述它们,但此类描述非常主观且不准确。为了给出这些描述更客观和准确的度量,我们使用从随机变量的 pdf(或 cdf)中推导出的某些定量度量定量地评估它们。

我们将在本章中讨论一些此类定量度量。其中,期望是最重要的一个,因为许多其他性质都基于期望的概念。

期望有不同的替代名称,例如预期值和均值。

定义。(期望)随机变量期望

(i) (如果是离散的),其中 的 pmf;

(ii) (如果 是连续的),其中 的 pdf;

(iii) (如果 是混合的) 如果 其中 的 pmf,而 的 pdf。

备注。

  • 的期望是我们对 值的 预期,如果我们要对 进行观测。
  • 它实际上是 所有可能取值(即 )的 加权平均,其中对 pmf 或 pdf 值更高 的点赋予 更重的 权重。
  • 期望告诉我们 分布的“中心”,以及 长期 生成时的“平均”位置。
  • 实际上,“” 是不需要的,因为对于不在其支持范围内的输入,pmf 或 pdf 将为零。

示例: 假设 是掷一次公平的六面骰子后朝上的数字。那么, 的期望值为 如果骰子是不公平的,并且数字“6”朝上的概率变成 0.5,而其他五个数字朝上的概率相等,那么 的期望值将变成

示例。 (均匀分布的期望)设 ,为参数为 的均匀分布。那么, 的概率密度函数为 的期望为

Clipboard

练习。 在一个过程中,我们首先抛一次 不公平 的硬币,正面朝上的概率为 。如果第一次抛掷正面朝上,我们再抛一次 另一个不公平 的硬币,正面朝上的概率为 。如果第一次抛掷反面朝上,我们向地面抛射一支箭。设 为所有抛掷中 正面 的次数, 为箭头的方向与正北方向之间的 角度,以弧度逆时针测量, 为该过程最终得到的数字。假设

1 选择 的正确表达式。

2 选择 的正确表达式。

3 选择 的正确表达式。

4 如果两枚硬币是 公平的,选择正确的陈述。

增加。
减少。
的变化取决于的值。
保持不变。
增加如果.


接下来,我们将介绍一个有用的结果,它给出了期望和概率之间的关系。我们可以利用这个结果,用期望来简化概率的计算。

命题. (概率和期望之间的基本桥梁) 对于每个事件,

证明.。因为 (这是一个离散随机变量),

当涉及多个随机变量时,我们可以先推导出联合pmf或pdf来计算期望,但这可能非常困难和复杂。实际上,我们更常使用以下定理。

定理. (无意识统计学家法则(LOTUS)) 令为随机变量。定义 对于一个函数。那么,

(i) (如果 是离散的) 其中 的联合概率质量函数;

(ii) (如果 是连续的) 其中 的联合概率密度函数。

备注。

  • 如果 是混合的,我们可以应用期望的定义,并使用上面两个关于离散和连续随机变量的期望的结果。
  • 这个定理被称为 无意识统计学家定律,因为我们经常倾向于使用这个等式而不意识到它是一个定理的结果,而不是一个定义。
  • 这个定理也适用于只有一个随机变量的情况(联合概率质量函数和概率密度函数变成普通概率质量函数和概率密度函数),例如:

证明相当复杂,因此我们跳过它。接下来,我们将介绍期望的几个性质,这些性质可以帮助我们简化期望的计算。

命题。 (期望的性质) 对于每个常数 和随机变量 ,

  • (线性) ;
  • (非负性) 如果 , ;
  • (单调性) 如果 , ;
  • (三角不等式) ;
  • (独立性下的乘法性) 如果 是独立的, .

证明。

线性:

对于连续随机变量 类似地,对于离散随机变量

非负性:

对于连续随机变量类似地,对于离散随机变量

单调性:

对于随机变量,它们要么都是离散的,要么都是连续的,

三角不等式:

独立性下的乘法性:

对于连续随机变量 同样地,对于离散随机变量

备注。

  • (非乘法性) 一般情况下.
  • 当期望内部的函数为非线性函数时,我们不能类似地应用线性性质。例如, 一般情况下。
  • 从线性性质,我们可以看到常数的期望值就是常数本身。这是直观的,因为我们对常数的期望值就是常数本身。
  • 独立性下乘法性的逆命题在一般情况下是正确的,但并不总是成立。对于某些特殊的相关随机变量,逆命题不成立。

离散随机变量某些分布的均值

[edit | edit source]

命题. (伯努利和二项式随机变量的均值) 设 . 那么,,且 .

证明。

  • .
  • 因为 ,其中 是独立同分布的,服从 [1],
  • .

命题。 (泊松随机变量的均值) 令 . 则

证明。

命题。 (几何随机变量和负二项式随机变量的均值) 令 . 则 , 以及 .

证明。

  • 由于

  • 因此,.
  • 由于,其中 是 i.i.d.,并服从 [2],

命题. (超几何随机变量的均值)设。那么,.

证明。

  • 由于,其中 (每个伯努利随机变量指示相应的球是否为类型 1,概率为 ,而不知道其他抽取的结果 [3],因为每次抽取都等可能地是 个球中的任何一个) [4]
  • 因此,


连续随机变量的一些分布的均值

[edit | edit source]

我们将介绍一些连续随机变量分布的均值公式,这些公式相对简单。

命题.(均匀随机变量的均值)设 )。则,.

证明.

命题.(伽马、指数和卡方随机变量的均值)设 ,以及 。则,,以及 .

证明。

  • 证明伽马随机变量均值公式就足够了,因为指数和卡方随机变量本质上是伽马随机变量的特例,因此我们可以简单地将一些值代入伽马随机变量均值公式中,得到它们的公式。
  • 由于 ,将 代入,则
  • 由于 ,将 代入,则

命题. (贝塔随机变量的均值)令 。那么,

证明。

  • 我们使用与之前证明类似的方法。

命题。 (柯西随机变量的未定义均值) 令 . 那么,未定义.

证明.

命题. (正态随机变量的均值) 假设 . 那么,.

证明。

  • .
  • 因此,.

例子

[edit | edit source]

例子. (圣彼得堡悖论)考虑一个游戏,玩家掷一枚公平的硬币 次,直到出现正面。由于 期望值 of 也就是说,玩家平均需要两次投掷才能出现正面。

游戏奖励玩家 来玩这个游戏,但玩家必须在出现正面后偿还

有些人可能认为玩家的预期净收益是 所以玩家在这个游戏中占有优势。

然而,这是 错误的,因为正确预期的净收益应该是 也就是说,平均来说,玩家将 无限亏损!

Clipboard

练习。

1 选择正确的陈述。

对于每个随机变量 .
对于每个随机变量 .
对于每个随机变量 .
如果随机变量 是成对独立的。

2 给定 ,选择 的正确表达式。


让我们用这个桥梁来证明容斥原理,以此说明概率和期望之间基本桥梁的用途。

例: (容斥公式的证明)回想容斥公式是

对于每个事件 ,

证明如下:

概率生成函数

[edit | edit source]

期望的一个应用是 概率生成函数。顾名思义,它可以 生成 一些意义上的概率。

定义: (概率生成函数)令 是一个离散的随机变量,其支撑集为 概率生成函数

备注。

  • 还有 矩生成函数,它可以 生成 一些意义上的矩(下一节定义)。我们将在 随机变量的变换 一章中讨论。
  • 通过对概率生成函数求导,我们可以生成概率

  • 这可以通过直接计算导数来看到。

方差(和标准差)

[编辑 | 编辑源代码]

事实上,方差中心矩 的一个特例,并且在某种程度上与 相关。

定义. (阶矩) 随机变量 .

定义. (阶中心矩) 随机变量 中心矩.

定义. (方差) 随机变量 方差,记为 ,是它的二阶中心矩,即 .

由于 的值与其平均值的平方偏差,根据方差的定义,我们可以看到方差衡量了分布的离散度(或扩展),因为它是我们对随机变量进行观测时预期 的平方偏差。

另一个密切相关的术语是标准差

定义. (标准差) 随机变量 标准差,通常记为 ,是

备注。

  • 标准差的解释与方差类似
  • 标准差有时也简写为's.d.'
  • 随机变量 的标准差与 具有相同的单位,这是它的一个优势,也是使用标准差而不是方差来衡量离散程度的原因之一。
  • 由于标准差通常用 表示,因此我们可以将方差表示为,尽管它不像 表示法那么常见。

命题。(方差的性质)

  • (方差的另一种表达式)

  • (在位置参数变化下保持不变)

对于每个常数

  • (二阶齐次性)

对于每个常数

  • (非负性)

  • (零方差意味着非随机性)

  • (独立性下的可加性)

证明。

  • 方差的另一种表达式
为了更清晰的表达。

然后得出结论。

  • 在位置参数变化下保持不变

  • 非负性:它来自 .
  • 零方差意味着非随机性
为了更清晰的表达。考虑事件 ,其中 是一个正整数。
由于
我们有 .
因此,

  • 独立性下的可加性
对于每个随机变量 ,它们是相互独立的,其期望值分别为

因此,通过归纳, 如果 是独立的。

离散随机变量的一些分布的方差

[edit | edit source]

命题。(伯努利和二项式随机变量的方差)设 。则,

证明。

  • ,因为 是非负的。
  • 由此可得
  • 类似于伯努利和二项式随机变量均值的证明,,其中 是独立同分布的,且服从
  • 由于 独立性(来自独立同分布的性质),

命题。(泊松随机变量的方差)设 。则,

证明。

  • 因此,

命题。 (几何分布和负二项分布的方差)令 。那么,,且 .

证明。

  • 由于

  • 由此可知 .
  • 因此,.
  • 类似地, 其中 是独立同分布的,并且服从 [5]
  • 由于独立性,

连续随机变量的一些分布的方差

[编辑 | 编辑源代码]

命题。 (均匀随机变量的方差) 令 。() 那么,.

证明。

命题。 (伽马、指数和卡方随机变量的方差) 令 , , 和 . 那么,, , 和 .

证明。

  • 类似地,只需证明伽马随机变量方差的公式即可。
  • 因此,
  • 因为 ,将 代入,可得
  • 因为 ,将 代入,可得

提案。 假设 。那么,

证明。

  • 由此可知,

命题。(柯西随机变量的未定义方差)令。那么,未定义的

证明。 由于柯西随机变量的未定义平均值的命题,以及公式 (任意项减去未定义项是未定义的)。

命题。 (正态随机变量的方差)令。那么,

证明。

  • .
  • 因此,.
  • 因此,.

Clipboard

练习。

选择正确陈述。

对于每个常数 .
对于每个随机变量 ,以及每个常数
如果
随机变量 的标准差,



变异系数

[edit | edit source]

定义.(变异系数) 变异系数标准差均值 之比,即

备注。

  • 它也被称为 相对 标准差,因为它测量了相对于均值的离散程度。
  • 因此,它比没有均值的标准差更准确地描述了离散程度。
  • 此外,变异系数没有单位。
  • 所以,它在比较不同数据集的离散程度时很有用。
  • 它显示了相对于均值的离散程度。
  • 然而,如果均值为零,则变异系数将无法定义。因此,这是一个局限性。

示例. 如果 ,那么对于每个 的变异系数是 ,而 的变异系数为 1/5,等于 的变异系数,如果 ,等于 的变异系数的负数,如果 (它们的大小相同,即绝对值相同)。这是预期的,因为随机变量本身的缩放不应该影响其分散程度。

Clipboard

练习。

1 假设 增加到 20。计算 使得 的变异系数保持不变。

1
2
4
5
8

2 计算 使得 的标准差保持不变。

1
2
4
5
8



备注。

  • 一般来说,当均值为负时,变异系数将是非正的,因为标准差始终是非负的。

分位数

[编辑 | 编辑源代码]

接下来,我们将讨论 分位数。特别是,中位数四分位距分位数 密切相关。

定义。(分位数) 分位数 的阶数为 ( 分位数) 的随机变量

备注。

  • 分位数的定义 不唯一。有一些替代定义,即

  • 如果 严格递增 的,所有替代定义都变得等价,并且等于 cdf 在 处的逆函数 ,因此我们可以通过求解方程 来计算 分位数。
  • 实际应用仅关注

以下是与 分位数 相关的术语。

定义。(百分位数) 百分位数 分位数。

示例。 第 70 个百分位数是第 0.7 个分位数。

定义。(中位数) 中位数 是第 0.5 个分位数。

定义。(四分位数) 四分位数是 分位数,其中

示例。 第 2 个四分位数是第 0.5 个分位数,也就是中位数。

定义。(四分位距) 四分位距 是第 3 个四分位数减去第 1 个四分位数。

中位数四分位距 分别衡量了数据的集中趋势和离散程度。回想一下,均值方差 分别衡量了相同的东西。中位数四分位距 的一个优点是它们是 稳健的,因为它们始终定义,而 均值方差 可能无限大,在这些情况下,它们无法衡量集中趋势和离散程度。然而,中位数四分位距 也有一些缺点,例如,它们可能更难计算,并且可能不太准确。

示例。 (均匀分布的分位数)参数为 的均匀分布的 分位数是 因为 我们可以看到,如果 ,则

然后,均匀分布的 中位数,它与均值相同,而均匀分布的 四分位距,它与方差不同,即

Clipboard

练习。

选择正确陈述。

第 20 个百分位数是第 0.2 个百分点
第 4 个四分位数是第 1 个百分位数
第 2 个百分位数未定义。
第 0 个百分位数 = 第 0 个百分点 = 第 0 个四分位数。
四分位距必须是非负的。
中位数必须是非负的。



众数

[edit | edit source]

众数是衡量集中趋势的另一种方法。

定义。 (众数)

  • 概率质量函数 (pmf) 或概率密度函数 (pdf) 的 众数 的值,在该值处 pmf (pdf) 取得其最大值(局部最大值)。

备注。

  • 众数是最有可能被采样的值(对于 pmf)。
  • 众数的使用频率低于均值。

示例。 投掷一个公平的六面骰子时出现的数字的 pmf 的 众数 是 1、2、3、4、5 和 6,因为每个数字出现的概率是 1/6,所以 pmf 在这些数字的每个数字处都取得其最大值(1/6)。

Clipboard

练习。

假设骰子被加载,使得数字六出现的概率是 1/2,而其他数字仍然等可能地出现。以下哪些是 pmf 的众数?

1
2
3
4
5
6



备注。

  • 从这个例子中,我们可以看到众数并不一定是唯一的。

协方差和相关系数

[edit | edit source]

在本节中,我们将讨论 联合 分布的两个重要性质,即 协方差相关系数。正如我们将看到的,协方差在某种程度上与方差相关,而相关系数与相关性密切相关。

定义。 (协方差)对于每个随机变量 协方差

定义。 (相关系数)对于每个随机变量 ,使得 相关系数

协方差相关系数 都是用来衡量 之间 线性关系 的。正如我们将看到的,,当 增大时, 的相关性越高,并且如果 ,则 之间存在线性关系。

命题。 (协方差的性质)

(i) (对称性) 对于每个随机变量 (ii) 对于每个随机变量 (iii) (协方差的另一种公式) (iv) 对于每个常数 ,以及每个随机变量 (v) 对于每个随机变量

证明。

(i) (ii) (iii) (iv) (v)

接下来,我们将讨论相关系数。以下是两个随机变量之间相关性的定义。

定义。 (两个随机变量之间的相关性) 随机变量 不相关的,如果 ,并且是相关的,如果

备注。

  • ,以及 如果 并且 。这解释了为什么我们使用协方差而不是相关系数。因为协方差始终定义,而相关系数可能未定义。

协方差和相关系数相似,但它们之间存在差异。特别是, 取决于 方差,而不仅仅是它们之间的关系。因此,这个数字会受到方差的影响,并且不能准确地衡量它们之间的关系。另一方面, 调整方差,因此更 准确地 衡量了它们之间的关系。

以下是相关系数最重要的性质之一。

命题。 (相关系数的通用度量)相关系数介于 -1 和 1 之间(包含端点)。

证明。 对于每个随机变量

目标:证明 。为了去除平方根使证明更简洁,我们在不等式的两边平方,得到

回顾一下,。因此,证明最右边不等式的一种方法是将它的左侧表示为 ,如下: 因此,结果成立。

备注。 对于每个随机变量

  • 越大,则 之间的相关性越大
  • 因此,我们可以比较不同随机变量对的相关性
  • 如果 线性增加
  • 如果 线性减小

接下来,我们将定义几个与相关系数相关的术语。

定义。(正相关、负相关和不相关)随机变量 如果 ,即 倾向于 时,被称为正(负)相关

如果 ,则它们是 不相关的


接下来,我们将陈述一个与独立性和相关性相关的重要的结果。直观地,你可能会认为 "独立" 等同于 "不相关"。然而,这是错误的。事实上,"独立" 比 "不相关" 更强

命题。 (独立性和相关性之间的关系) 如果两个随机变量是 独立的,那么它们是 不相关的

证明。 对于每个独立的随机变量 ,其均值分别为 ,有

然而,反过来 成立,正如我们将在下例中看到的那样。

例。,使得它们是独立的。设 。由于 ,以及 ,它们的联合pmf为 协方差 因此 不相关。

另一方面,,因此 不是独立的。

这说明“不相关”并不意味着“独立”。

Clipboard

练习。

选择正确陈述。

如果两个随机变量 中至少有一个是非随机常数,则它们是不相关的。
对于每个随机变量,它与其自身不相关。
对于每个随机变量,它随自身线性增加。
如果 ,则随机变量 的相关性比随机变量 的相关性更高。



  1. 每个伯努利随机变量充当对应试验成功的指示器。由于有 个独立的伯努利试验,因此有 个这样的指示器。
  2. 每个几何随机变量表示对应成功之前失败的次数。
  3. 由于这个概率是无条件的,因为相应的平均值也是无条件的,因此它们的总和也是无条件平均值(如命题中所示)
  4. 相关的,但我们仍然可以使用期望的线性性,因为它不需要独立性。
  5. 每个几何随机变量表示对应成功之前失败的次数。
华夏公益教科书