本章讨论了一些与统计学相关的预备知识,这些知识将用于高级部分的后续章节。
备注。
- 我们通常将底层分布称为 总体。
- 通常,计算机 对进行此类实验并重复多次很有用。
- 特别是,一种称为 R 的编程语言通常用于计算统计学。你可以查看维基教科书 R 编程,以了解有关它的更多信息。
- 因此,本节中讨论的内容(以及有关重抽样的部分)与计算统计学非常相关。
由于所有这些 个随机变量都遵循与 相同的 cdf,我们可以预期它们的分布应该与 的分布有些相似,实际上,这是正确的。在展示这是如何实现之前,我们需要更精确地定义“这些 个随机变量的分布”,如下所示
备注。
- 是指示函数,当 为真时值为 1,否则为 0。
- 我们可以看到 将概率(或“质量”) 分配给每个 ,这确实是一个有效的累积分布函数。
- 这是因为对于每个 ,如果它小于或等于 ,那么和中相应的指示函数为 1,因此累积分布函数贡献了 ""。
- 为了更清楚地理解这一点,请考虑以下示例。
- 我们可以将 解释为事件 的 相对频率。回想一下,事件概率的频率论定义是事件的“长期”相对频率(即在重复随机实验 无限 次后事件的相对频率)。因此,我们直观地预期 当 很大时。
示例。 从一个未知分布中抽取大小为 5 的随机样本,得到以下数字
-1.4, 2.3, 0.8, 1.9, -1.6
(a) 求经验累积分布函数。
(b) 令 是一个(离散的)随机变量,其累积分布函数与 (a) 中的经验累积分布函数完全相同。证明 的概率质量函数(称为 经验概率质量函数)为 解
(a) 首先,我们将样本数据按升序排列,以便我们更方便地找到经验累积分布函数
-1.6, -1.4, 0.8, 1.9, 2.3
经验累积分布函数由以下公式给出: 解释
- 对样本数据进行排序后,我们将每个数字视为随机样本的观测值:.
- 然后,当时,没有一个 小于或等于 。因此,所有相关的指示函数都为零,经验累积分布函数的值也为零。
- 当 时,只有 ,因此只有指示函数 在这种情况下,所有其他指示函数都为零。因此,该值为 .
- 类似地,当 时,只有 ,因此只有指示函数 和 在这种情况下,所有其他指示函数均为零。因此,该值为 。
- ...
- 当 时,所有 。因此,所有指示函数均为一,因此经验 cdf 的值为 。
(b)
定理。(格利文科-坎泰利定理)当 时, 几乎必然(a.s.)。
我们已经提到了如何近似 cdf,现在我们想估计 pdf/pmf。让我们首先讨论如何估计 pmf。
对于离散随机变量 ,从经验 cdf 中,我们知道每个 都被“分配”了概率 。此外,考虑到前面的例子,经验 pmf 是 .
为了讨论连续随机变量的 pdf 估计,我们首先需要定义 类间隔。
定义。 (类间隔)首先,选择一个整数 和一个实数序列 ,使得 。那么,类间隔 为 。
对于连续随机变量 ,构建 的类别区间,这些区间是非重叠的,并对区间 进行划分,其中 和 是样本中的最小值和最大值。然后,pdf 当 和 很接近,即每个类别区间的长度很小。(尽管上述类别区间的并集是 ,因此值 不包含在区间内,但这并不重要,因为 pdf 在 的值不会影响概率的计算。)这里, 是 ,而 是 。
由于 是事件 的相对频率,我们可以将上面的表达式改写为 ,其中 被称为 相对频率直方图。
由于构建类别区间的可能方法很多,所以 的值即使在相同的 和 时也会有所不同。当 很 大 并且每个类别区间的长度很 小 时,我们期望 是 (理论 pdf)的良好估计。
与相对频率直方图相关的某些属性如下
命题.(相对频率直方图的属性)
(i) ;
(ii) 由 和 轴所包围的总面积为 1,即 [2];
(iii) 事件 是某些类间距的并集,其概率为 .
证明。
(i) 由于指示函数是非负的(其值要么是 0 要么是 1), 为正数,并且 ,因此 为正数,根据定义,我们有 。
(ii) Here, is and is .
(iii) 我们可以在类似于 (ii) 的方式中“拆分”积分,然后最终积分等于 ,并且它可以近似 ,因为它是在 次试验中事件 发生的相对频率。
在本节中,我们将讨论一些关于期望的结果,这些结果涉及某种不等式。设 和 为常数。此外,设 为 的样本空间。
备注。
- 我们可以互换 “” 和 “” 而不影响结果。这可以从证明中看到。
证明。 如所愿。
示例. (协方差不等式)使用期望的柯西-施瓦茨不等式(上面的定理)来证明 协方差不等式(有时简单地称为柯西-施瓦茨不等式):(假设协方差和方差存在)。
在讨论收敛之前,我们将定义一些稍后会用到的术语。
在特定样本中,例如 ,我们观察到它们样本均值 和 样本方差 的确定值。 然而,每个值只是各自随机变量 和 的一次实现。我们应该注意这些确定值(不是随机变量)和统计量(随机变量)之间的区别。
为了更直观地解释样本均值 和 样本方差 的定义,请考虑以下情况。
回顾一下,经验累积分布函数 将概率 分配给每个随机样本 。因此,根据均值和方差的定义,随机变量(比如 )的 均值,其累积分布函数为 (因此对应的概率质量函数为 )是 。类似地, 的 方差 是 。换句话说,经验分布(对应于 随机样本)的 均值 和 方差 分别是 样本均值 和 样本方差 ,这很自然,对吧?
此外,请记住经验累积分布函数 当 很大时,可以很好地近似 的累积分布函数 。 由于 和 是具有累积分布函数 的随机变量的均值和方差,因此很自然地期望 和 可以很好地近似 的均值和方差。
以下定理,即**大数定律**,是一个与概率收敛相关的重要的定理。
证明. 我们使用 来表示 。
根据定义,当 时, 等价于当 时,。
根据切比雪夫不等式,我们有
由于 是 独立 的(因此它们的函数也是独立的),期望在独立性下是可乘的, 因此,概率 小于或等于 一个随着 趋于 0 的表达式。由于概率是非负的(),因此该概率也随着 趋于 0。
备注。
- 此外,还有 大数定律,它与 几乎必然收敛 相关(比概率收敛更强,即蕴含概率收敛)。
概率收敛还有一些性质,可以帮助我们确定一个复杂表达式收敛于什么。
证明。 简要说明: 假设 且 。连续映射定理首先被证明,以便我们可以在证明其他性质时使用它(这里省略了证明)。此外,可以证明 (概率联合收敛,定义类似,只是随机变量变成了有序对,所以对 "" 的解释变成了笛卡尔坐标系中两个点之间的 距离,这两个点由有序对表示)
然后,我们定义 , 和 ,分别地,其中这些函数都是连续的,而 是常数。然后,利用这些函数中的每一个来应用连续映射定理,得到了前三个结果。
统计学中一个与分布收敛密切相关的非常重要的定理是 中心极限定理。
分布收敛有一些性质,但它们与概率收敛的性质略有不同。这些性质由 Slutsky 定理 以及连续映射定理给出。
证明。 省略。
证明: 简要思路:假设 并且 。然后可以证明 (联合分布收敛,其定义类似,只是累积分布函数变成了有序对的联合累积分布函数)。之后,我们定义 , 以及 分别,其中每个函数都是连续的,然后使用每个函数应用连续映射定理,就可以得到我们想要的三个结果。
备注。
- 注意,假设中提到的是 ,而不是 .
通过 重采样,我们指的是基于现有样本创建新的样本。现在,让我们考虑以下内容,以概述重采样的过程。
假设 是一个来自随机变量 分布的 随机样本,其累积分布函数为 。令 是随机样本 的一个相应的 实现。基于这个实现,我们也有经验累积分布函数的 实现: [3]。由于这是一个经验累积分布函数的实现,根据 Glivenko-Cantelli 定理,当 很大时 [4],它可以很好地估计累积分布函数 。换句话说,如果我们将具有与经验累积分布函数 实现 相同的概率密度函数的随机变量表示为 ,则当 很大时, 和 具有相似的分布。
请注意,经验累积分布函数(CDF)的实现是一个 离散 CDF(因为其支撑集 是可数的)。现在,我们从随机变量 的分布中抽取一个 随机样本(称为引导(或重抽样)随机样本),样本大小为 (称为 引导样本大小) ( 来自于从 中 抽样,因此从 中抽样的行为被称为 重抽样)。
然后, 的相对频率直方图应该接近于 的经验概率质量函数(PMF)的对应 实现(从 的经验 CDF 的实现中找到),它又接近于 的 PDF 。这意味着 的相对频率直方图接近于 的 PDF 。
特别地,由于 的累积分布函数,,为 [5] 中的每一个值分配概率 , 的概率质量函数为 。请注意,这个概率质量函数非常简单,因此可以简化与其相关的计算。例如,在以下内容中,我们想知道 的分布,而这个简单的概率质量函数可以使得到的分布也相当简单。
注: 在自举方法中涉及的事物(“自举”的事物)在其表示法中通常会添加一个额外的“*”。
在下文中,我们将讨论上面提到的自举方法(或 重采样)的一个应用,即使用自举方法来 近似 统计量 (函数的输入是随机变量, 是一个函数)的分布。近似而不是精确地找到分布的原因是后者通常不可行(或者可能过于复杂)。
To do this, consider the "bootstrapped statistic" and the statistic . is the bootstrap random sample (with bootstrap sample size ) from the distribution of and is the random sample from the distribution of . When is large, since the distribution of is similar to that of , the bootstrap random sample and the random sample are also similar. It follows that and are similar as well, or to be more precise, the distributions of and are close. As a result, we can utilize the distribution of (which is easier to find and simpler, since the pmf of is simple as in above) to approximate the distribution of . A procedure to do this is as follows
- 从 自举随机样本 中生成 自举实现 ,它来自 的分布。
- 计算自举统计量 的一个实现,。
- 重复步骤 1 到 2 次,以获得 个 的实现序列:.
- 绘制 个实现 的相对频率直方图。
这个 个实现的直方图(它是从 中抽取的样本大小为 的随机样本的实现)接近 的 pmf [6],因此接近 的 pmf。
- ↑ 直观地说,给定最大值的候选值,我们总是可以为它添加“一点”,以得到更大的候选值。因此,该集合中不存在“最大”元素。
- ↑ 这是因为 和 。
- ↑ 这不同于经验 cdf 。
- ↑ 对于 Glivenko-Cantelli 定理,经验 cdf 是 cdf 的一个很好的估计,无论随机样本的实际值(实现)是什么,即对于经验 cdf 的每个实现,当 很大时,它是 cdf 的一个很好的估计。
- ↑ 也就是说,对于随机样本 的一个实现,例如 , 等于 (对应于 的实现),概率分别为 。
- ↑ 原因类似于上面提到的:直方图应该接近 的概率质量函数,因为与直方图对应的累积分布函数(即随机样本 的经验累积分布函数的实现)接近 的累积分布函数。