统计/预备知识

统计
预备知识

本章讨论了一些与统计学相关的预备知识，这些知识将用于高级部分的后续章节。

经验分布

定义。 (随机样本) 假设 $X$ 是一个随机变量，它来自一个随机实验，具有特定的分布。重复这个随机实验 $n$ 次，我们获得了 $n$ 个 独立同分布 (iid) 随机变量，用 $X_{1},X_{2},\dotsc ,X_{n}$ 表示，与这 $n$ 个结果相关。它们被称为样本大小为 $n$ 的分布的 随机样本。

备注。

我们通常将底层分布称为总体。
通常，计算机 对进行此类实验并重复多次很有用。
特别是，一种称为 R 的编程语言通常用于计算统计学。你可以查看 R 编程，以了解有关它的更多信息。
因此，本节中讨论的内容（以及有关重抽样的部分）与计算统计学非常相关。

由于所有这些 $n$ 个随机变量都遵循与 $X$ 相同的 cdf，我们可以预期它们的分布应该与 $X$ 的分布有些相似，实际上，这是正确的。在展示这是如何实现之前，我们需要更精确地定义“这些 $n$ 个随机变量的分布”，如下所示

定义。 (经验分布) 经验分布 的 cdf，即经验 cdf，随机样本 $X_{1},X_{2},\dotsc ,X_{n}$ ，用 $F_{\color {darkgreen}n}(x)$ 表示，为 ${\frac {1}{n}}\sum _{k=1}^{n}\mathbf {1} \{X_{k}\leq x\}$ .

备注。

$\mathbf {1} \{A\}$ 是指示函数，当 $A$ 为真时值为 1，否则为 0。
我们可以看到 $F_{n}(x)$ 将概率（或“质量”） $1/n$ 分配给每个 $X_{1},X_{2},\dotsc ,X_{n}$ ，这确实是一个有效的累积分布函数。

这是因为对于每个 $X_{1},\dotsc ,X_{n}$ ，如果它小于或等于 $x$ ，那么和中相应的指示函数为 1，因此累积分布函数贡献了 " $1/n$ "。
为了更清楚地理解这一点，请考虑以下示例。

我们可以将 $F_{n}(x)$ 解释为事件 $\{X\leq x\}$ 的 相对频率。回想一下，事件概率的频率论定义是事件的“长期”相对频率（即在重复随机实验无限次后事件的相对频率）。因此，我们直观地预期 $F_{n}(x)\approx F(x)$ 当 $n$ 很大时。

示例。 从一个未知分布中抽取大小为 5 的随机样本，得到以下数字

-1.4, 2.3, 0.8, 1.9, -1.6

(a) 求经验累积分布函数。

(b) 令 $Y$ 是一个（离散的）随机变量，其累积分布函数与 (a) 中的经验累积分布函数完全相同。证明 $Y$ 的概率质量函数（称为 经验概率质量函数）为 $f_{Y}(y)=\mathbb {P} (Y=y)={\frac {1}{5}},\quad y=-1.6,-1.4,0.8,1.9{\text{ or }}2.3.$ 解

(a) 首先，我们将样本数据按升序排列，以便我们更方便地找到经验累积分布函数

-1.6, -1.4, 0.8, 1.9, 2.3

经验累积分布函数由以下公式给出： $F_{5}(x)={\begin{cases}0,&x<-1.6;\\1/5,&-1.6\leq x<-1.4;\\2/5,&-1.4\leq x<0.8;\\3/5,&0.8\leq x<1.9;\\4/5,&1.9\leq x<2.3;\\1,&x\geq 2.3.\\\end{cases}}$ 解释

对样本数据进行排序后，我们将每个数字视为随机样本的观测值： $X_{1}=-1.6,X_{2}=-1.4,X_{3}=0.8,X_{4}=1.9,X_{5}=2.3$ .
然后，当 $x<1.6$ 时，没有一个 $X_{1},\dotsc ,X_{5}$ 小于或等于 $x$ 。因此，所有相关的指示函数都为零，经验累积分布函数的值也为零。
当 $-1.6\leq x<-1.4$ 时，只有 $X_{1}\leq x$ ，因此只有指示函数 $\mathbf {1} \{X_{1}\leq x\}=1$ 在这种情况下，所有其他指示函数都为零。因此，该值为 ${\frac {\sum _{k=1}^{5}\mathbf {1} \{X_{k}\leq x\}}{5}}={\frac {\mathbf {1} \{X_{1}\leq x\}+0+0+0+0}{5}}={\frac {1}{5}}$ .
类似地，当 $-1.4\leq x<0.8$ 时，只有 $X_{1},X_{2}\leq x$ ，因此只有指示函数 $\mathbf {1} \{X_{1}\leq x\}=1$ 和 $\mathbf {1} \{X_{2}\leq x\}=1$ 在这种情况下，所有其他指示函数均为零。因此，该值为 ${\frac {\sum _{k=1}^{5}\mathbf {1} \{X_{k}\leq x\}}{5}}={\frac {\mathbf {1} \{X_{1}\leq x\}+\mathbf {1} \{X_{2}\leq x\}+0+0+0}{5}}={\frac {2}{5}}$ 。
...
当 $x\geq 2.3$ 时，所有 $X_{1},\dotsc ,X_{5}\leq x$ 。因此，所有指示函数均为一，因此经验 cdf 的值为 ${\frac {1+1+1+1+1}{5}}=1$ 。

(b)

证明。 首先，请注意 $Y$ 的 cdf 为 $F_{Y}(y)=\mathbb {P} (Y\leq y)=\mathbb {P} (Y<y)+\mathbb {P} (Y=y)=\mathbb {P} (Y<y)+f_{Y}(y)\implies f_{Y}(y)=\mathbb {P} (Y\leq y)-\mathbb {P} (Y<y)$ 。

然后，我们观察到当 $y=-1.6$ 时， $\mathbb {P} (Y\leq y)=F_{5}(-1.6)=1/5$ ，并且 $\mathbb {P} (Y<y)=\mathbb {P} (Y<-1.6)=0$ （从经验累积分布函数得出）。因此， $f_{Y}(y)={\frac {1}{5}}$ 在这种情况下。类似地，当 $y=-1.4$ 时， $\mathbb {P} (Y\leq y)=F_{5}(-1.4)=2/5$ ，并且 $\mathbb {P} (Y<y)=\mathbb {P} (Y<-1.4)={\frac {1}{5}}$ 。因此， $f_{Y}(y)={\frac {2}{5}}-{\frac {1}{5}}={\frac {1}{5}}$ 在这种情况下也是如此。用类似的论证，我们可以证明 $f_{Y}(y)={\frac {1}{5}}$ 当 $y=0.8,1.9,{\text{ or }}2.3$ 时也是如此。

$\Box$

备注。

从 (b) 中观察到 $Y$ 的支持正好包含样本数据中的数字，这些数字是随机样本 $X_{1},\dotsc ,X_{5}$ 的实现。这表明概率 $1/5$ 被“分配”给每个 $X_{1},\dotsc ,X_{5}$ 。

定理。（格利文科-坎泰利定理）当 $n\to \infty$ 时， $\sup _{x\in \mathbb {R} }|F_{n}(x)-F(x)|\to 0$ 几乎必然（a.s.）。

备注。

$\sup$ 代表集合的上确界（满足一些技术要求），即集合的最小上界，也就是大于或等于集合中所有其他元素的最小元素。

$\sup _{x\in \mathbb {R} }|F_{n}(x)-F(x)|$ 的含义是包含 $|F_{n}(x)-F(x)|$ 在 $x\in \mathbb {R}$ 上的所有值的集合的最小上界。
上确界类似于最大值的概念（实际上，如果最大值存在，则最大值与上确界相同），但它们之间的一个区别是，有时上确界存在而最大值不存在。
例如，集合（或区间） $[0,1)$ 的上确界是 1（直观上）。但是，集合 $[0,1)$ 的最大值（即集合中的最大元素）不存在（注意 1 不包含在这个集合中）^[1]。

术语“几乎必然”意味着这发生的概率为 1。将此称为“几乎必然”而不是“必然”的原因涉及对测度论的一些理解，因此此处省略。
粗略地说，从这个定理中，我们知道 $F_{n}(x)$ 是 $F(x)$ 的一个好的估计，当 $n$ 很大时，是 $F(x)$ 的一个更好的估计（或“更接近”），对于每一个实现 $x_{1},\dotsc ,x_{n}$ （它们都是实数），因为绝对差的最小上界已经趋于零，然后我们直观上会期望 每一个 这样的绝对差也趋于零。
这个定理有时被称为 统计学基本定理，表明它在统计学中的重要性。

我们已经提到了如何近似 cdf，现在我们想估计 pdf/pmf。让我们首先讨论如何估计 pmf。

对于离散随机变量 $X$ ，从经验 cdf 中，我们知道每个 $X_{1},\dotsc ,X_{n}$ 都被“分配”了概率 $1/n$ 。此外，考虑到前面的例子，经验 pmf 是 $f_{n}(x)={\frac {\sum _{k=1}^{n}\mathbf {1} \{X_{k}=x\}}{n}}$ .

备注。

经验 pmf $f_{n}(x)$ 显示了 $x$ 出现的相对频率，因此可以近似估计 $x$ 出现的概率，即 $x$ 出现的长期相对频率。

为了讨论连续随机变量的 pdf 估计，我们首先需要定义 类间隔。

定义。 （类间隔）首先，选择一个整数 $i\geq 1$ 和一个实数序列 $c_{0},c_{1},\dotsc ,c_{i}$ ，使得 $c_{0}<c_{1}<\dotsb <c_{i}$ 。那么，类间隔 为 $(c_{0},c_{1}],(c_{1},c_{2}],\dotsc ,(c_{i-1},c_{i}]$ 。

对于连续随机变量 $X$ ，构建 $X$ 的类别区间，这些区间是非重叠的，并对区间 $[X_{\text{min}},X_{\text{max}}]$ 进行划分，其中 $X_{\text{min}}$ 和 $X_{\text{max}}$ 是样本中的最小值和最大值。然后，pdf $f(x)\approx {\frac {F(c_{j})-F(c_{j-1})}{c_{j}-c_{j-1}}},\quad x\in (c_{j-1},c_{j}]{\text{ and }}j=1,2,\dotsc ,i,$ 当 $c_{j-1}$ 和 $c_{j}$ 很接近，即每个类别区间的长度很小。（尽管上述类别区间的并集是 $(c_{0},c_{i}]$ ，因此值 $c_{0}$ 不包含在区间内，但这并不重要，因为 pdf 在 $c_{0}$ 的值不会影响概率的计算。）这里， $c_{0}$ 是 $X_{\text{min}}$ ，而 $c_{i}$ 是 $X_{\text{max}}$ 。

由于 $F(c_{j})-F(c_{j-1})=\mathbb {P} (X\in (c_{j-1},c_{j}])\approx {\color {darkgreen}{\frac {\sum _{k=1}^{n}\mathbf {1} \{X_{k}\in (c_{j-1},c_{j}]\}}{n}}}$ 是事件 $\{X_{k}\in (c_{j-1},c_{j}]\}$ 的相对频率，我们可以将上面的表达式改写为 $f(x)\approx h_{n}(x)={\frac {\color {darkgreen}\sum _{k=1}^{n}\mathbf {1} \{X_{k}\in (c_{j-1},c_{j}]\}}{{\color {darkgreen}n}(c_{j}-c_{j-1})}},\quad x\in (c_{j-1},c_{j}]{\text{ and }}j=1,2,\dotsc ,i$ ，其中 $h_{n}(x)$ 被称为 相对频率直方图。

由于构建类别区间的可能方法很多，所以 $h_{n}(x)$ 的值即使在相同的 $n$ 和 $x$ 时也会有所不同。当 $n$ 很大并且每个类别区间的长度很小时，我们期望 $h_{n}(x)$ 是 $f(x)$ （理论 pdf）的良好估计。

与相对频率直方图相关的某些属性如下

命题.（相对频率直方图的属性）

(i) $h_{n}(x)\geq 0$ ；

(ii) 由 $h_{n}(x)$ 和 $x$ 轴所包围的总面积为 1，即 $\int _{c_{0}}^{c_{i}}h_{n}(x)\,dx=1$ ^[2];

(iii) 事件 $A$ 是某些类间距的并集，其概率为 $\mathbb {P} (A)\approx \int _{A}^{}h_{n}(x)\,dx$ .

证明。

(i) 由于指示函数是非负的（其值要么是 0 要么是 1）， $n$ 为正数，并且 $c_{j}>c_{j-1}$ ，因此 $c_{j}-c_{j-1}$ 为正数，根据定义，我们有 $h_{n}(x)\geq 0$ 。

(ii) ${\begin{aligned}\int _{c_{0}}^{c_{i}}h_{n}(x)\,dx&=\int _{c_{0}}^{c_{1}}h_{n}(x)\,dx+\int _{c_{1}}^{c_{2}}h_{n}(x)\,dx+\dotsb +\int _{c_{i-1}}^{c_{i}}h_{n}(x)\,dx\\&={\frac {1}{n}}\left(\int _{c_{0}}^{c_{1}}{\frac {\sum _{k=1}^{n}\mathbf {1} \{X_{k}\in (c_{0},c_{1}]\}}{c_{1}-c_{0}}}\,dx+\int _{c_{1}}^{c_{2}}{\frac {\sum _{k=1}^{n}\mathbf {1} \{X_{k}\in (c_{1},c_{2}]\}}{c_{2}-c_{1}}}\,dx+\dotsb +\int _{c_{i-1}}^{c_{i}}{\frac {\sum _{k=1}^{n}\mathbf {1} \{X_{k}\in (c_{i-1},c_{i}]\}}{c_{i}-c_{i-1}}}\,dx\right)\\&={\frac {1}{n}}\left({\frac {\sum _{k=1}^{n}\mathbf {1} \{X_{k}\in (c_{0},c_{1}]\}}{c_{1}-c_{0}}}\cdot (c_{1}-c_{0})+{\frac {\sum _{k=1}^{n}\mathbf {1} \{X_{k}\in (c_{1},c_{2}]\}}{c_{2}-c_{1}}}\cdot (c_{2}-c_{1})+\dotsb +{\frac {\sum _{k=1}^{n}\mathbf {1} \{X_{k}\in (c_{i-1},c_{i}]\}}{c_{i}-c_{i-1}}}\cdot (c_{i}-c_{i-1})\right)\\&={\frac {1}{n}}\left(\sum _{k=1}^{n}\mathbf {1} \{X_{k}\in (c_{0},c_{1}]\}+\sum _{k=1}^{n}\mathbf {1} \{X_{k}\in (c_{1},c_{2}]\}+\dotsb +\sum _{k=1}^{n}\mathbf {1} \{X_{k}\in (c_{i-1},c_{i}]\}\right)\\&={\frac {1}{n}}\left(\sum _{k=1}^{n}\mathbf {1} \{X_{k}\in (c_{0},c_{1}]\cup (c_{1},c_{2}]\cup \dotsb \cup (c_{i-1},c_{i}]\}\right)\\&={\frac {1}{n}}\left(\sum _{k=1}^{n}\mathbf {1} \{X_{k}\in \underbrace {(c_{0},c_{i}]} _{{\text{sample space of }}X}\}\right)\\&={\frac {1}{n}}\cdot \sum _{k=1}^{n}1\\&={\frac {1}{n}}\cdot n\\&=1.\end{aligned}}$ Here, $c_{0}$ is $X_{\text{min}}$ and $c_{i}$ is $X_{\text{max}}$ .

(iii) 我们可以在类似于 (ii) 的方式中“拆分”积分，然后最终积分等于 ${\frac {1}{n}}\cdot \sum _{k=1}^{n}\mathbf {1} \{X_{k}\in A\}$ ，并且它可以近似 $\mathbb {P} (A)$ ，因为它是在 $n$ 次试验中事件 $\{X_{k}\in A\}$ 发生的相对频率。

$\Box$

期望

在本节中，我们将讨论一些关于期望的结果，这些结果涉及某种不等式。设 $a$ 和 $b$ 为常数。此外，设 $\Omega$ 为 $X$ 的样本空间。

命题。 令 $X$ 是一个离散或连续随机变量。如果 $\mathbb {P} (a<X\leq b)=1$ ，那么 $a<\mathbb {E} [X]\leq b$ .

证明。 假设 $\mathbb {P} (a<X\leq B)=1$ .

情况 1: $X$ 是离散的。

根据期望的定义， $\mathbb {E} [X]=\sum _{x\in \Omega }^{}xf(x)$ 。然后，我们有 $\sum _{x\in \Omega }^{}af(x)<\sum _{x\in \Omega }^{}xf(x)\leq \sum _{x\in \Omega }^{}bf(x)\Rightarrow a\sum _{x\in \Omega }^{}f(x)<\mathbb {E} [X]\leq b\sum _{x\in \Omega }^{}f(x)\Rightarrow a<\mathbb {E} [X]\leq b$ ，因为条件 $\mathbb {P} (a<X\leq b)=1$ .

情况 2: $X$ 是连续的。

类似地，我们有 $\int _{\Omega }^{}af(x)\,dx<\int _{\Omega }^{}xf(x)\,dx\leq \int _{\Omega }^{}bf(x)\,dx\Rightarrow a<\mathbb {E} [X]\leq b$ ，因为条件 $\mathbb {P} (a<X\leq b)=1$ .

$\Box$

备注。

我们可以互换 “ $<$ ” 和 “ $\leq$ ” 而不影响结果。这可以从证明中看到。

命题。 （马尔可夫不等式）假设 $\mathbb {E} [X]$ 是有限的。令 $X$ 为一个连续的非负随机变量。那么，对于每个正数 $a$ ， $\mathbb {P} (X\geq a)\leq {\frac {\mathbb {E} [X]}{a}}$ 。

证明。 ${\frac {\mathbb {E} [X]}{a}}={\frac {1}{a}}\int _{-\infty }^{\infty }\underbrace {xf(x)} _{\color {darkgreen}\geq 0}\,dx{\color {darkgreen}\geq }\int _{a}^{\infty }xf(x)\,dx{\color {darkgreen}\geq }{\frac {1}{a}}\int _{a}^{\infty }af(x)\,dx=\int _{a}^{\infty }f(x)\,dx=\mathbb {P} (X\geq a),$ 如所愿。

$\Box$

推论。 （切比雪夫不等式）假设 $\mathbb {E} [X^{2}]$ 是有限的。那么，对于每个正数 $a$ ， $\mathbb {P} (|X|\geq a)\leq {\frac {\mathbb {E} [X^{2}]}{a^{2}}}.$

证明。 首先，观察到 $X^{2}$ 是一个非负随机变量。那么，根据马尔可夫不等式，对于每个 (正) $a'=a^{2}$ ，我们有 $\mathbb {P} (X^{2}\geq a')\leq {\frac {\mathbb {E} [X^{2}]}{a'}}\implies \mathbb {P} (X^{2}\geq a^{2})\leq {\frac {\mathbb {E} [X^{2}]}{a^{2}}}\implies \mathbb {P} \left({\sqrt {X^{2}}}\geq {\sqrt {a^{2}}}\right)\leq {\frac {\mathbb {E} [X^{2}]}{a^{2}}}\implies \mathbb {P} (|X|\geq a)\leq {\frac {\mathbb {E} [X^{2}]}{a^{2}}}$ ，因为 $a$ 是正数。

$\Box$

命题。 (詹森不等式) 令 $X$ 为一个连续随机变量。如果 $g$ 是一个凸函数，则 $g\left(\mathbb {E} [X]\right)\leq \mathbb {E} [g(X)]$ .

证明。 令 $L(x)=a+bx$ 为函数 $g(x)$ 在 $x=\mathbb {E} [X]$ 处的切线。那么，由于 $g$ 是凸函数，我们有 $g(x)\geq L(x)$ 对每个 $x$ （非正式地说，我们可以从图形上观察到这一点）。因此，我们有 ${\begin{aligned}&&\int _{\Omega }^{}g(x)f(x)\,dx&\geq \int _{\Omega }^{}L(x)f(x)\,dx\\&\Rightarrow &\mathbb {E} [g(X)]&\geq \mathbb {E} [L(X)]\\&&&=\mathbb {E} [a+bX]\\&&&=a+b\mathbb {E} [X]\\&&&=L(\mathbb {E} [X])\\&&&=g(\mathbb {E} [X])&{\text{since }}L(x){\text{ is tangent of }}g(x){\text{ at }}x=\mathbb {E} [X],\end{aligned}}$ 如所愿。

$\Box$

定理。 （柯西-施瓦茨不等式）假设 $\mathbb {E} [X^{2}]$ 和 $\mathbb {E} [Y^{2}]$ 是有限的。那么， $(\mathbb {E} [XY])^{2}\leq \mathbb {E} [X^{2}]\mathbb {E} [Y^{2}]$

证明： ${\begin{aligned}0&\leq \mathbb {E} [(X\mathbb {E} [Y^{2}]-Y\mathbb {E} [XY])^{2}]\\&={\color {darkgreen}\mathbb {E} [}X^{2}\underbrace {(\mathbb {E} [Y^{2}])^{2}} _{\text{constant}}-2XY\underbrace {\mathbb {E} [Y^{2}]\mathbb {E} [XY]} _{\text{constant}}+Y^{2}\underbrace {(\mathbb {E} [XY])^{2}} _{\text{constant}}{\color {darkgreen}]}\\&=(\mathbb {E} [Y^{2}])^{2}{\color {darkgreen}\mathbb {E} [}X^{2}{\color {darkgreen}]}-2\mathbb {E} [Y^{2}]\mathbb {E} [XY]{\color {darkgreen}\mathbb {E} [}XY{\color {darkgreen}]}+(\mathbb {E} [XY])^{2}{\color {darkgreen}\mathbb {E} [}Y^{2}{\color {darkgreen}]}\\&=\mathbb {E} [Y^{2}]\left(\mathbb {E} [X^{2}]\mathbb {E} [Y^{2}]-2(\mathbb {E} [XY])^{2}+(\mathbb {E} [XY])^{2}\right)\\&=\mathbb {E} [Y^{2}]\left(\mathbb {E} [X^{2}]\mathbb {E} [Y^{2}]-(\mathbb {E} [XY])^{2}\right)\\\end{aligned}}$ 由于 $\mathbb {E} [Y^{2}]\geq 0$ ，我们必须有 $\mathbb {E} [X^{2}]\mathbb {E} [Y^{2}]-(\mathbb {E} [XY])^{2}\geq 0\Leftrightarrow (\mathbb {E} [XY])^{2}\leq \mathbb {E} [X^{2}]\mathbb {E} [Y^{2}]$ .

$\Box$

示例. （协方差不等式）使用期望的柯西-施瓦茨不等式（上面的定理）来证明 协方差不等式（有时简单地称为柯西-施瓦茨不等式）： ${\big (}\operatorname {Cov} (X,Y){\big )}^{2}\leq \operatorname {Var} (X)\operatorname {Var} (Y)$ （假设协方差和方差存在）。

证明. 令 $X'=X-\mathbb {E} [X]$ 和 $Y'=Y-\mathbb {E} [Y]$ 。然后， $\mathbb {E} [X']$ 和 $\mathbb {E} [Y']$ 是有限的。因此，根据柯西-施瓦茨不等式， $(\mathbb {E} [X'Y'])^{2}\leq \mathbb {E} [(X')^{2}]\mathbb {E} [(Y')^{2}]\Leftrightarrow (\mathbb {E} [(X-\mathbb {E} [X])(Y-\mathbb {E} [Y])]\leq \mathbb {E} [(X-\mathbb {E} [X])^{2}]\mathbb {E} [(Y-\mathbb {E} [Y])^{2}]{\overset {\text{ def }}{\Leftrightarrow }}{\big (}\operatorname {Cov} (X,Y){\big )}^{2}\leq \operatorname {Var} (X)\operatorname {Var} (Y).$

$\Box$

收敛

在讨论收敛之前，我们将定义一些稍后会用到的术语。

定义. （统计学）统计量 是随机样本的函数。

备注。

随机样本包含 $n$ （ $n$ 是样本量）个随机变量 $X_{1},\dotsc ,X_{n}$ 。
两个重要统计量 是样本均值 ${\overline {X}}={\frac {\sum _{i=1}^{n}X_{i}}{n}}$ 和 样本方差 $S^{2}={\frac {\sum _{i=1}^{n}(X_{i}-{\overline {X}})^{2}}{n}}$ 。

在许多其他地方， $S^{2}$ 用于表示 ${\frac {\sum _{i=1}^{n}(X_{i}-{\overline {X}})^{2}}{n-1}}$ ，即无偏样本方差。事实上，这里的 $S^{2}$ 是有偏的（我们将在下一章讨论“（无）偏”的含义）。警告：我们应该注意定义上的这种差异。
${\overline {X}}$ 和 $S^{2}$ 都是随机变量，因为它们都包含随机变量。

在特定样本中，例如 $x_{1},\dotsc ,x_{n}$ ，我们观察到它们样本均值 ${\overline {x}}={\frac {\sum _{i=1}^{n}x_{i}}{n}}$ 和样本方差 $s^{2}={\frac {\sum _{i=1}^{n}(x_{i}-{\overline {x}})^{2}}{n}}$ 的确定值。然而，每个值只是各自随机变量 ${\overline {X}}$ 和 $S^{2}$ 的一次实现。我们应该注意这些确定值（不是随机变量）和统计量（随机变量）之间的区别。

为了更直观地解释样本均值 ${\overline {X}}$ 和样本方差 $S^{2}$ 的定义，请考虑以下情况。

回顾一下，经验累积分布函数 $F_{n}(x)$ 将概率 ${\frac {1}{n}}$ 分配给每个随机样本 $X_{1},\dotsc ,X_{n}$ 。因此，根据均值和方差的定义，随机变量（比如 $Y$ ）的均值，其累积分布函数为 $F_{n}(x)$ （因此对应的概率质量函数为 $f_{n}(x)$ ）是 $\sum _{i=1}^{n}\left(X_{i}\cdot {\frac {1}{n}}\right)={\overline {X}}$ 。类似地， $Y$ 的方差是 $\sum _{i=1}^{n}\left((X_{i}-{\overline {X}})^{2}\cdot {\frac {1}{n}}\right)=S^{2}$ 。换句话说，经验分布（对应于 随机样本）的均值和方差分别是 样本均值 ${\overline {X}}$ 和 样本方差 $S^{2}$ ，这很自然，对吧？

备注。

这里，我们使用 “ $X_{i}$ ” 而不是表达式中常见的 “ $x_{i}$ ”，而且均值和方差也是随机变量。这是因为经验累积分布函数的样本空间由随机变量 $X_{1},\dotsc ,X_{n}$ 组成，而不是确定的值 $x_{1},\dotsc ,x_{n}$ 。

此外，请记住经验累积分布函数 $F_{n}(x)$ 当 $n$ 很大时，可以很好地近似 $X$ 的累积分布函数 $F(x)$ 。由于 ${\overline {X}}$ 和 $S^{2}$ 是具有累积分布函数 $F_{n}(x)$ 的随机变量的均值和方差，因此很自然地期望 ${\overline {X}}$ 和 $S^{2}$ 可以很好地近似 $X$ 的均值和方差。

概率收敛

定义。（概率收敛）令 $Z_{1},Z_{2},\dotsc$ 是一个序列随机变量。序列 概率收敛 到一个随机变量 $Z$ ，如果对于每个 $\varepsilon >0$ ， $\mathbb {P} (|Z_{n}-Z|>\varepsilon )\to 0$ 当 $n\to \infty$ 时。如果是这样，为了简单起见，我们将此写为 $Z_{n}\;{\overset {p}{\to }}\;Z$ 。

备注。

我们可以将此定义与 确定性 序列 $(a_{n}:n\in \mathbb {N}$ 的收敛定义进行比较

a_{n}\to a

当

n\to \infty

时，对于任意

\varepsilon >0

，存在一个正整数

N>0

（它是

\varepsilon

的函数），使得当

n\geq N

时，

|a_{n}-a|<\varepsilon

成立（一定成立）。

为了比较，我们可以将上述定义改写为：

Z_{n}\;{\overset {p}{\to }}\;Z

当

n\to \infty

时，对于任意

\varepsilon >0

，存在一个正整数

N>0

（它是

\varepsilon

的函数），使得当

n\geq N

时，

|Z_{n}-Z|<\varepsilon

的概率非常接近于 1（但该事件不一定会发生）。

$\varepsilon$ 指定了收敛的**精度**。如果需要更高的精度，则 $\varepsilon$ 将被设置为更小的（正）值。当 $n$ 足够大时，定义中的概率非常接近于零（我们说在这种情况下的收敛以一定的精度（取决于 $\varepsilon$ 的值）“实现”）。

以下定理，即**大数定律**，是一个与概率收敛相关的重要的定理。

定理. (弱大数定律 (弱LLN)) 令 $X_{1},\dotsc ,X_{n}$ 为一序列的独立随机变量，具有相同的有限均值 $\mu$ 和相同的有限方差 $\sigma ^{2}$ 。那么，当 $n\to \infty$ 时， ${\overline {X}}\;{\overset {p}{\to }}\;\mu$ 。

证明. 我们使用 $S_{n}$ 来表示 $\sum _{i=1}^{n}X_{i}$ 。

根据定义，当 $n\to \infty$ 时， ${\overline {X}}\;{\overset {p}{\to }}\;\mu$ 等价于当 $n\to \infty$ 时， $\mathbb {P} \left(\left|{\frac {S_{n}}{n}}-\mu \right|>\varepsilon \right)\to 0$ 。

根据切比雪夫不等式，我们有 ${\begin{aligned}\mathbb {P} \left(\left|{\frac {S_{n}}{n}}-\mu \right|>\epsilon \right)&\leq {\frac {1}{\varepsilon ^{2}}}\mathbb {E} \left[\left({\frac {S_{n}}{n}}-\mu \right)^{2}\right]\\&={\frac {1}{\varepsilon ^{2}}}\mathbb {E} \left[\left({\frac {S_{n}-n\mu }{\color {darkgreen}n}}\right)^{2}\right]\\&={\frac {1}{{\color {darkgreen}n^{2}}\varepsilon ^{2}}}\mathbb {E} \left[\left(S_{n}-n\mu \right)^{2}\right]\\&={\frac {1}{n^{2}\varepsilon ^{2}}}\mathbb {E} \left[\left(\sum _{i=1}^{n}X_{i}-\mu \right)^{2}\right]\\&={\frac {1}{n^{2}\varepsilon ^{2}}}\mathbb {E} \left[\sum _{i=1}^{n}\sum _{j=1}^{n}(X_{i}-\mu )(X_{j}-\mu )\right]\\&={\frac {1}{n^{2}\varepsilon ^{2}}}\left(\mathbb {E} \left[\sum _{i=j=1}^{n}(X_{i}-\mu )^{2}\right]+\mathbb {E} \left[\sum _{i=1}^{n}\sum _{j\neq i,j=1}^{n}(X_{i}-\mu )(X_{j}-\mu )\right]\right)\\\end{aligned}}$

由于 $X_{1},X_{2},\dotsc$ 是独立的（因此它们的函数也是独立的），期望在独立性下是可乘的， ${\begin{aligned}{\frac {1}{n^{2}\varepsilon ^{2}}}\left(\mathbb {E} \left[\sum _{i=j=1}^{n}(X_{i}-\mu )^{2}\right]+\mathbb {E} \left[\sum _{i=1}^{n}\sum _{j\neq i,j=1}^{n}(X_{i}-\mu )(X_{j}-\mu )\right]\right)&={\frac {1}{n^{2}\varepsilon ^{2}}}\left(\mathbb {E} \left[\sum _{i=j=1}^{n}(X_{i}-\mu )^{2}\right]+\sum _{i=1}^{n}\sum _{j\neq i,j=1}^{n}\underbrace {\mathbb {E} [X_{i}-\mu ]} _{=\mu -\mu =0}\underbrace {\mathbb {E} [X_{j}-\mu ]} _{=\mu -\mu =0}\right)\\&={\frac {1}{n^{2}\varepsilon ^{2}}}\cdot \sum _{i=1}^{n}\underbrace {\mathbb {E} \left[(X_{i}-\mu )^{2}\right]} _{=\sigma ^{2}}\\&={\frac {n\sigma ^{2}}{n^{2}\varepsilon ^{2}}}\\&={\frac {\sigma ^{2}}{n\varepsilon ^{2}}}\\&\to 0&{\text{as }}n\to \infty .\end{aligned}}$ 因此，概率 $\mathbb {P} \left(\left|{\frac {S_{n}}{n}}-\mu \right|>\varepsilon \right)$ 小于或等于 一个随着 $n\to \infty$ 趋于 0 的表达式。由于概率是非负的（ $\geq 0$ ），因此该概率也随着 $n\to \infty$ 趋于 0。

$\Box$

备注。

此外，还有 大数定律，它与 几乎必然收敛 相关（比概率收敛更强，即蕴含概率收敛）。

概率收敛还有一些性质，可以帮助我们确定一个复杂表达式收敛于什么。

命题。 （概率收敛的性质）如果 $X_{n}\;{\overset {p}{\to }}\;X$ 且 $Y_{n}\;{\overset {p}{\to }}\;Y$ ，则

（线性性） $aX_{n}+bY_{n}\;{\overset {p}{\to }}\;aX+bY$ 其中 $a,b$ 为常数；
（乘法性） $X_{n}Y_{n}\;{\overset {p}{\to }}\;XY$ ；
$X_{n}/Y_{n}\;{\overset {p}{\to }}\;X/Y$ 只要 $Y_{n}\neq 0$ 且 $Y\neq 0$ ；
（连续映射定理）如果 $g$ 是一个连续函数，则 $g(X_{n})\;{\overset {p}{\to }}\;g(X)$ （以及 $g(Y_{n})\;{\overset {p}{\to }}\;g(Y)$ )

证明。 简要说明: 假设 $X_{n}\;{\overset {p}{\to }}\;X$ 且 $Y_{n}\;{\overset {p}{\to }}\;Y$ 。连续映射定理首先被证明，以便我们可以在证明其他性质时使用它（这里省略了证明）。此外，可以证明 $(X_{n},Y_{n})\;{\overset {p}{\to }}\;(X,Y)$ （概率联合收敛，定义类似，只是随机变量变成了有序对，所以对 " $|Z_{n}-Z|$ " 的解释变成了笛卡尔坐标系中两个点之间的距离，这两个点由有序对表示)

然后，我们定义 $g(z_{1},z_{2})=az_{1}+bz_{2}$ ， $g(z_{1},z_{2})=z_{1}z_{2}$ 和 $g(z_{1}/z_{2})=z_{1}/z_{2}$ ，分别地，其中这些函数都是连续的，而 $a,b$ 是常数。然后，利用这些函数中的每一个来应用连续映射定理，得到了前三个结果。

$\Box$

分布收敛

定义。 (分布收敛) 令 $Z_{1},Z_{2},\dotsc$ 是一个序列随机变量。当 $n\to \infty$ ， $G_{n}(x)\to G(x)$ 对每一个 $x$ 在 $G(x)$ 连续时，该序列 在分布上收敛 到一个随机变量 $Z$ ，其中 $G_{n}(x)$ 和 $G(x)$ 分别是 $Z_{n}$ 和 $Z$ 的累积分布函数。在这种情况下，我们简单地写成 $Z_{n}\;{\overset {d}{\to }}\;Z$ 。

备注。

要求 $G(x)$ 是连续的，是为了使分布收敛即使在一些 $G(x)$ 不连续的点上累积分布函数的收敛失败时仍然成立。
我们也可以将定义表达为 $\lim _{n\to \infty }G_{n}(x)=G(x)$ ，这与 $G_{n}(x)\to G(x)$ 当 $n\to \infty$ 时的含义相同。
可以证明，概率收敛意味着分布收敛。也就是说，如果 $X_{n}\;{\overset {p}{\to }}\;X$ ，那么 $X_{n}\;{\overset {d}{\to }}\;X$ ，但反过来只有当极限 " $X$ " 为常数时才成立，即如果 $X_{n}\;{\overset {d}{\to }}\;c$ ，那么 $X_{n}\;{\overset {p}{\to }}\;c$ ，其中 $c$ 为常数。

统计学中一个与分布收敛密切相关的非常重要的定理是 中心极限定理。

定理。 (中心极限定理 (CLT)) 令 $X_{1},X_{2},\dotsc$ 是具有相同有限均值 $\mu$ 和方差 $\sigma ^{2}$ 的独立随机变量序列。那么，当 $n\to \infty$ 时， ${\frac {{\overline {X}}-\mathbb {E} [{\overline {X}}]}{\sqrt {\operatorname {Var} ({\overline {X}})}}}={\frac {{\sqrt {n}}({\overline {X}}-\mu )}{\sigma }}\;{\overset {d}{\to }}\;Z$ ，其中 $Z$ 服从标准正态分布， ${\mathcal {N}}(0,1)$ .

证明。 可以在 Probability/Transformation of Random Variables#Central limit theorem 中找到一个（冗长的）证明。

$\Box$

分布收敛有一些性质，但它们与概率收敛的性质略有不同。这些性质由 Slutsky 定理 以及连续映射定理给出。

定理。 (连续映射定理) 如果 $X_{n}\;{\overset {d}{\to }}\;X$ ，则 $g(X_{n})\;{\overset {d}{\to }}\;g(X)$ ，只要 $g$ 是一个连续函数。

证明。 省略。

$\Box$

定理。 (Slutsky 定理) 如果 $X_{n}\;{\overset {d}{\to }}\;X$ 且 $Y_{n}\;{\overset {p}{\to }}\;c$ 其中 $c$ 是一个常数，那么

$X_{n}+Y_{n}\;{\overset {d}{\to }}\;X+c$ ;
$X_{n}Y_{n}\;{\overset {d}{\to }}\;cX$ ;
$X_{n}/Y_{n}\;{\overset {d}{\to }}\;X/c$ 假设 $c\neq 0$ .

证明： 简要思路：假设 $X_{n}\;{\overset {d}{\to }}\;X$ 并且 $Y_{n}\;{\overset {p}{\to }}\;c$ 。然后可以证明 $(X_{n},Y_{n})\;{\overset {d}{\to }}\;(X,c)$ （联合分布收敛，其定义类似，只是累积分布函数变成了有序对的联合累积分布函数）。之后，我们定义 $g(z_{1},z_{2})=z_{1}+z_{2}$ ， $g(z_{1},z_{2})=z_{1}z_{2}$ 以及 $g(z_{1},z_{2})=z_{1}/z_{2}$ 分别，其中每个函数都是连续的，然后使用每个函数应用连续映射定理，就可以得到我们想要的三个结果。

$\Box$

备注。

注意，假设中提到的是 $Y_{n}\;{\overset {\color {darkgreen}p}{\to }}\;c$ ，而不是 $Y_{n}\;{\overset {\color {darkgreen}d}{\to }}\;c$ .

重采样

通过 重采样，我们指的是基于现有样本创建新的样本。现在，让我们考虑以下内容，以概述重采样的过程。

假设 $X_{1},\dotsc ,X_{n}$ 是一个来自随机变量 $X$ 分布的 随机样本，其累积分布函数为 $F(x)$ 。令 $x_{1},\dotsc ,x_{n}$ 是随机样本 $X_{1},\dotsc ,X_{n}$ 的一个相应的实现。基于这个实现，我们也有经验累积分布函数的实现： ${\frac {1}{n}}\sum _{k=1}^{n}\mathbf {1} \{x_{k}\leq x\}$ ^[3]。由于这是一个经验累积分布函数的实现，根据 Glivenko-Cantelli 定理，当 $n$ 很大时 ^[4]，它可以很好地估计累积分布函数 $F(x)$ 。换句话说，如果我们将具有与经验累积分布函数实现相同的概率密度函数的随机变量表示为 $X^{*}$ ，则当 $n$ 很大时， $X^{*}$ 和 $X$ 具有相似的分布。

请注意，经验累积分布函数（CDF）的实现是一个离散 CDF（因为其支撑集 $x_{1},\dotsc ,x_{n}$ 是可数的）。现在，我们从随机变量 $X^{*}$ 的分布中抽取一个 随机样本（称为引导（或重抽样）随机样本），样本大小为 $B$ （称为 引导样本大小） $X_{1}^{*},\dotsc ,X_{B}^{*}$ ( $X^{*}$ 来自于从 $X$ 中抽样，因此从 $X^{*}$ 中抽样的行为被称为 重抽样）。

然后， $X_{1}^{*},\dotsc ,X_{B}^{*}$ 的相对频率直方图应该接近于 $X^{*}$ 的经验概率质量函数（PMF）的对应实现（从 $X^{*}$ 的经验 CDF 的实现中找到），它又接近于 $X$ 的 PDF $f(x)$ 。这意味着 $X_{1}^{*},\dotsc ,X_{B}^{*}$ 的相对频率直方图接近于 $X$ 的 PDF $f(x)$ 。

特别地，由于 $X^{*}$ 的累积分布函数， $F_{n}(x)$ ，为 $X_{1}^{*},\dotsc ,X_{B}^{*}$ ^[5] 中的每一个值分配概率 $1/n$ ， $X^{*}$ 的概率质量函数为 $\mathbb {P} (X^{*}=x_{i})={\frac {1}{n}},\quad i=1,2,\dotsc ,n$ 。请注意，这个概率质量函数非常简单，因此可以简化与其相关的计算。例如，在以下内容中，我们想知道 $T^{*}=g(X_{1}^{*},\dotsc ,X_{n}^{*})$ 的分布，而这个简单的概率质量函数可以使得到的分布也相当简单。

注：在自举方法中涉及的事物（“自举”的事物）在其表示法中通常会添加一个额外的“*”。

在下文中，我们将讨论上面提到的自举方法（或 重采样）的一个应用，即使用自举方法来近似统计量 $T=g(X_{1},X_{2},\dotsc ,X_{n})$ （函数的输入是随机变量， $g$ 是一个函数）的分布。近似而不是精确地找到分布的原因是后者通常不可行（或者可能过于复杂）。

To do this, consider the "bootstrapped statistic" $T^{*}=g(X_{1}^{*},X_{2}^{*},\dotsc ,X_{n}^{*})$ and the statistic $T=g(X_{1},X_{2},\dotsc ,X_{n})$ . $X_{1}^{*},X_{2}^{*},\dotsc ,X_{n}^{*}$ is the bootstrap random sample (with bootstrap sample size $n$ ) from the distribution of $X^{*}$ and $X_{1},X_{2},\dotsc ,X_{n}$ is the random sample from the distribution of $X^{*}$ . When $n$ is large, since the distribution of $X^{*}$ is similar to that of $X$ , the bootstrap random sample $X_{1}^{*},X_{2}^{*},\dotsc ,X_{B}^{*}$ and the random sample $X_{1},X_{2},\dotsc ,X_{n}$ are also similar. It follows that $T^{*}$ and $T$ are similar as well, or to be more precise, the distributions of $T^{*}$ and $T$ are close. As a result, we can utilize the distribution of $T^{*}$ (which is easier to find and simpler, since the pmf of $X^{*}$ is simple as in above) to approximate the distribution of $T$ . A procedure to do this is as follows

从 自举随机样本 $X_{1}^{*},X_{2}^{*},\dotsc ,X_{n}^{*}$ 中生成 自举实现 $x_{1}^{*},x_{2}^{*},\dotsc ,x_{n}^{*}$ ，它来自 $X^{*}$ 的分布。
计算自举统计量 $T^{*}$ 的一个实现， $t^{*}=g(x_{1}^{*},x_{2}^{*},\dotsc ,x_{n}^{*})$ 。
重复步骤 1 到 2 $j$ 次，以获得 $j$ 个 $T^{*}$ 的实现序列： $t_{1}^{*},t_{2}^{*},\dotsc ,t_{j}^{*}$ .
绘制 $j$ 个实现 $t_{1}^{*},t_{2}^{*},\dotsc ,t_{j}^{*}$ 的相对频率直方图。

这个 $j$ 个实现的直方图（它是从 $T^{*}$ 中抽取的样本大小为 $j$ 的随机样本的实现）接近 $T^{*}$ 的 pmf ^[6]，因此接近 $T$ 的 pmf。

统计/检验统计假设

统计
预备知识

点估计

↑ 直观地说，给定最大值的候选值，我们总是可以为它添加“一点”，以得到更大的候选值。因此，该集合中不存在“最大”元素。
↑ 这是因为 $X_{\text{min}}=c_{0}$ 和 $X_{\text{max}}=c_{i}$ 。
↑ 这不同于经验 cdf ${\frac {1}{n}}\sum _{k=1}^{n}\mathbf {1} \{X_{k}\leq x\}$ 。
↑ 对于 Glivenko-Cantelli 定理，经验 cdf 是 cdf $F(x)$ 的一个很好的估计，无论随机样本的实际值（实现）是什么，即对于经验 cdf 的每个实现，当 $n$ 很大时，它是 cdf $F(x)$ 的一个很好的估计。
↑ 也就是说，对于随机样本 $X_{1},X_{2},\dotsc ,X_{n}$ 的一个实现，例如 $x_{1},x_{2},\dotsc ,x_{n}$ ， $X^{*}$ 等于 $x_{1},x_{2},\dotsc ,x_{n}$ （对应于 $X_{1},X_{2},\dotsc ,X_{n}$ 的实现），概率分别为 $1/n$ 。
↑ 原因类似于上面提到的：直方图应该接近 $T^{*}$ 的概率质量函数，因为与直方图对应的累积分布函数（即随机样本 $T_{1}^{*},T_{2}^{*},\dotsc ,T_{j}^{*}$ 的经验累积分布函数的实现）接近 $T^{*}$ 的累积分布函数。

[1] 直观地说，给定最大值的候选值，我们总是可以为它添加“一点”，以得到更大的候选值。因此，该集合中不存在“最大”元素。

[2] 这是因为 $X_{\text{min}}=c_{0}$ 和 $X_{\text{max}}=c_{i}$ 。

[3] 这不同于经验 cdf ${\frac {1}{n}}\sum _{k=1}^{n}\mathbf {1} \{X_{k}\leq x\}$ 。

[4] 对于 Glivenko-Cantelli 定理，经验 cdf 是 cdf $F(x)$ 的一个很好的估计，无论随机样本的实际值（实现）是什么，即对于经验 cdf 的每个实现，当 $n$ 很大时，它是 cdf $F(x)$ 的一个很好的估计。

[5] 也就是说，对于随机样本 $X_{1},X_{2},\dotsc ,X_{n}$ 的一个实现，例如 $x_{1},x_{2},\dotsc ,x_{n}$ ， $X^{*}$ 等于 $x_{1},x_{2},\dotsc ,x_{n}$ （对应于 $X_{1},X_{2},\dotsc ,X_{n}$ 的实现），概率分别为 $1/n$ 。

[6] 原因类似于上面提到的：直方图应该接近 $T^{*}$ 的概率质量函数，因为与直方图对应的累积分布函数（即随机样本 $T_{1}^{*},T_{2}^{*},\dotsc ,T_{j}^{*}$ 的经验累积分布函数的实现）接近 $T^{*}$ 的累积分布函数。

[1]

[2]

[3]

[4]

[5]

[6]