回想一下,pdf(或 cdf)描述了随机变量完全的随机行为。然而,我们有时会发现 pdf(或 cdf)过于复杂,只想知道关于随机变量的一些部分信息。鉴于此,我们在本章中研究了一些分布的性质,这些性质提供了随机变量随机行为的部分描述。
此类部分描述的一些示例包括
- 位置(例如,pdf 位于左侧还是右侧?),
- 分散度(例如,pdf 是“尖锐”还是“扁平”?),
- 偏度(例如,pdf 是对称的,向左偏斜还是向右偏斜?),以及
- 尾部性质(例如,pdf 具有“轻”尾部还是“重”尾部?)。
我们可以定性地描述它们,但此类描述非常主观且不准确。为了给出这些描述更客观和准确的度量,我们使用从随机变量的 pdf(或 cdf)中推导出的某些定量度量定量地评估它们。
我们将在本章中讨论一些此类定量度量。其中,期望是最重要的一个,因为许多其他性质都基于期望的概念。
期望有不同的替代名称,例如预期值和均值。
示例。 (均匀分布的期望)设 ,为参数为 和 的均匀分布。那么, 的概率密度函数为 , 的期望为
接下来,我们将介绍一个有用的结果,它给出了期望和概率之间的关系。我们可以利用这个结果,用期望来简化概率的计算。
命题. (概率和期望之间的基本桥梁) 对于每个事件,
当涉及多个随机变量时,我们可以先推导出联合pmf或pdf来计算期望,但这可能非常困难和复杂。实际上,我们更常使用以下定理。
定理. (无意识统计学家法则(LOTUS)) 令为随机变量。定义 对于一个函数。那么,
(i) (如果 是离散的) 其中 是 的联合概率质量函数;
(ii) (如果 是连续的) 其中 是 的联合概率密度函数。
备注。
- 如果 是混合的,我们可以应用期望的定义,并使用上面两个关于离散和连续随机变量的期望的结果。
- 这个定理被称为 无意识统计学家定律,因为我们经常倾向于使用这个等式而不意识到它是一个定理的结果,而不是一个定义。
- 这个定理也适用于只有一个随机变量的情况(联合概率质量函数和概率密度函数变成普通概率质量函数和概率密度函数),例如:
证明相当复杂,因此我们跳过它。接下来,我们将介绍期望的几个性质,这些性质可以帮助我们简化期望的计算。
命题。 (期望的性质) 对于每个常数 和随机变量 ,
- (线性) ;
- (非负性) 如果 , ;
- (单调性) 如果 , ;
- (三角不等式) ;
- (独立性下的乘法性) 如果 是独立的, .
证明。
线性:
对于连续随机变量 , 类似地,对于离散随机变量 ,
非负性:
对于连续随机变量,类似地,对于离散随机变量,
单调性:
对于随机变量,它们要么都是离散的,要么都是连续的,
三角不等式:
独立性下的乘法性:
对于连续随机变量 , 同样地,对于离散随机变量 ,
备注。
- (非乘法性) 一般情况下.
- 当期望内部的函数为非线性函数时,我们不能类似地应用线性性质。例如, 一般情况下。
- 从线性性质,我们可以看到常数的期望值就是常数本身。这是直观的,因为我们对常数的期望值就是常数本身。
- 独立性下乘法性的逆命题在一般情况下是正确的,但并不总是成立。对于某些特殊的相关随机变量,逆命题不成立。
命题。 (泊松随机变量的均值) 令 . 则
证明。
命题. (超几何随机变量的均值)设。那么,.
我们将介绍一些连续随机变量分布的均值公式,这些公式相对简单。
证明.
证明。
- 证明伽马随机变量均值公式就足够了,因为指数和卡方随机变量本质上是伽马随机变量的特例,因此我们可以简单地将一些值代入伽马随机变量均值公式中,得到它们的公式。
- 由于 ,将 代入,则 。
- 由于 ,将 和 代入,则 。
命题. (贝塔随机变量的均值)令 。那么,。
证明。
命题。 (柯西随机变量的未定义均值) 令 . 那么, 是 未定义.
证明.
命题. (正态随机变量的均值) 假设 . 那么,.
练习。
让我们用这个桥梁来证明容斥原理,以此说明概率和期望之间基本桥梁的用途。
期望的一个应用是 概率生成函数。顾名思义,它可以 生成 一些意义上的概率。
备注。
- 还有 矩生成函数,它可以 生成 一些意义上的矩(下一节定义)。我们将在 随机变量的变换 一章中讨论。
- 通过对概率生成函数求导,我们可以生成概率
事实上,方差 是中心矩 的一个特例,并且在某种程度上与矩 相关。
由于 是 的值与其平均值的平方偏差,根据方差的定义,我们可以看到方差衡量了分布的离散度(或扩展),因为它是我们对随机变量进行观测时预期 的平方偏差。
另一个密切相关的术语是标准差。
命题。(方差的性质)
对于每个常数
对于每个常数
证明。
- 设 为了更清晰的表达。
然后得出结论。
- 非负性:它来自 .
- 零方差意味着非随机性
- 设 为了更清晰的表达。考虑事件 ,其中 是一个正整数。
- 由于
- 我们有 .
- 因此,
- 对于每个随机变量 和 ,它们是相互独立的,其期望值分别为
因此,通过归纳, 如果 是独立的。
命题。(泊松随机变量的方差)设 。则,。
证明。
- 因此,
证明。
证明。
- 类似地,只需证明伽马随机变量方差的公式即可。
- 因此,
- 因为 ,将 代入,可得 。
- 因为 ,将 和 代入,可得 。
提案。 假设 。那么,。
证明。
- 由此可知,
命题。(柯西随机变量的未定义方差)令。那么, 是 未定义的。
证明。 由于柯西随机变量的未定义平均值的命题,以及公式 (任意项减去未定义项是未定义的)。
命题。 (正态随机变量的方差)令。那么,。
证明。
- 设 .
- 因此,.
- 因此,.
练习。
定义.(变异系数) 变异系数 是 标准差 与 均值 之比,即 。
备注。
- 它也被称为 相对 标准差,因为它测量了相对于均值的离散程度。
- 因此,它比没有均值的标准差更准确地描述了离散程度。
- 此外,变异系数没有单位。
- 所以,它在比较不同数据集的离散程度时很有用。
- 它显示了相对于均值的离散程度。
- 然而,如果均值为零,则变异系数将无法定义。因此,这是一个局限性。
备注。
- 一般来说,当均值为负时,变异系数将是非正的,因为标准差始终是非负的。
接下来,我们将讨论 分位数。特别是,中位数 和 四分位距 与 分位数 密切相关。
以下是与 分位数 相关的术语。
定义。(百分位数) 百分位数 是 分位数。
示例。 第 70 个百分位数是第 0.7 个分位数。
定义。(中位数) 中位数 是第 0.5 个分位数。
示例。 第 2 个四分位数是第 0.5 个分位数,也就是中位数。
定义。(四分位距) 四分位距 是第 3 个四分位数减去第 1 个四分位数。
中位数 和 四分位距 分别衡量了数据的集中趋势和离散程度。回想一下,均值 和 方差 分别衡量了相同的东西。中位数 和 四分位距 的一个优点是它们是 稳健的,因为它们始终定义,而 均值 和 方差 可能无限大,在这些情况下,它们无法衡量集中趋势和离散程度。然而,中位数 和 四分位距 也有一些缺点,例如,它们可能更难计算,并且可能不太准确。
示例。 (均匀分布的分位数)参数为 和 的均匀分布的 分位数是 因为 我们可以看到,如果 ,则 。
然后,均匀分布的 中位数 是 ,它与均值相同,而均匀分布的 四分位距 是 ,它与方差不同,即 。
练习。
众数是衡量集中趋势的另一种方法。
定义。 (众数)
- 概率质量函数 (pmf) 或概率密度函数 (pdf) 的 众数 是 的值,在该值处 pmf (pdf) 取得其最大值(局部最大值)。
备注。
- 众数是最有可能被采样的值(对于 pmf)。
- 众数的使用频率低于均值。
示例。 投掷一个公平的六面骰子时出现的数字的 pmf 的 众数 是 1、2、3、4、5 和 6,因为每个数字出现的概率是 1/6,所以 pmf 在这些数字的每个数字处都取得其最大值(1/6)。
练习。
在本节中,我们将讨论 联合 分布的两个重要性质,即 协方差 和 相关系数。正如我们将看到的,协方差在某种程度上与方差相关,而相关系数与相关性密切相关。
协方差 和 相关系数 都是用来衡量 和 之间 线性关系 的。正如我们将看到的,,当 增大时, 的相关性越高,并且如果 ,则 与 之间存在线性关系。
命题。 (协方差的性质)
(i) (对称性) 对于每个随机变量 , (ii) 对于每个随机变量 , (iii) (协方差的另一种公式) (iv) 对于每个常数 ,以及每个随机变量 , (v) 对于每个随机变量 ,
证明。
(i) (ii) (iii) (iv) (v)
接下来,我们将讨论相关系数。以下是两个随机变量之间相关性的定义。
协方差和相关系数相似,但它们之间存在差异。特别是, 取决于 和 的方差,而不仅仅是它们之间的关系。因此,这个数字会受到方差的影响,并且不能准确地衡量它们之间的关系。另一方面, 调整了 和 的方差,因此更 准确地 衡量了它们之间的关系。
以下是相关系数最重要的性质之一。
命题。 (相关系数的通用度量)相关系数介于 -1 和 1 之间(包含端点)。
证明。 对于每个随机变量 ,
目标:证明 。为了去除平方根使证明更简洁,我们在不等式的两边平方,得到 。
回顾一下,。因此,证明最右边不等式的一种方法是将它的左侧表示为 ,如下: 因此,结果成立。
备注。 对于每个随机变量 ,
- 越大,则 之间的相关性越大
- 因此,我们可以比较不同随机变量对的相关性
- 如果 , 随 线性增加
- 如果 , 随 线性减小
接下来,我们将定义几个与相关系数相关的术语。
接下来,我们将陈述一个与独立性和相关性相关的重要的结果。直观地,你可能会认为 "独立" 等同于 "不相关"。然而,这是错误的。事实上,"独立" 比 "不相关" 更强。
命题。 (独立性和相关性之间的关系) 如果两个随机变量是 独立的,那么它们是 不相关的。
然而,反过来 不 成立,正如我们将在下例中看到的那样。
例。 令 ,使得它们是独立的。设 。由于 ,,以及 ,它们的联合pmf为 协方差 因此 不相关。
另一方面,,因此 不是独立的。
这说明“不相关”并不意味着“独立”。
练习。
- ↑ 每个伯努利随机变量充当对应试验成功的指示器。由于有 个独立的伯努利试验,因此有 个这样的指示器。
- ↑ 每个几何随机变量表示对应成功之前失败的次数。
- ↑ 由于这个概率是无条件的,因为相应的平均值也是无条件的,因此它们的总和也是无条件平均值(如命题中所示)
- ↑ 是 相关的,但我们仍然可以使用期望的线性性,因为它不需要独立性。
- ↑ 每个几何随机变量表示对应成功之前失败的次数。