统计学/点估计

统计学
点估计

简介

通常，随机变量 $X$ 来自一个随机实验，被假设遵循某个分布，该分布有一个未知（但固定）参数（向量）^[1] $\theta \in \mathbb {R} ^{k}$ ^[2] ( $k$ 是一个正整数，其值取决于分布），取值在一个称为参数空间的集合 $\Theta$ 中。

备注。

在 频率统计学 的语境下（这里就是这种情况），参数被认为是固定的。
另一方面，在 贝叶斯统计学 的语境下，参数被认为是 随机变量。

例如，假设随机变量 $X$ 被假设服从正态分布 ${\mathcal {N}}(\mu ,\sigma ^{2})$ 。那么，在这种情况下，参数向量 $\theta =(\mu ,\sigma )\in \Theta$ 是未知的，参数空间 $\Theta =\{(\mu ,\sigma ):\mu \in \mathbb {R} ,\sigma >0\}$ 。通常情况下，以某种方式估计这些未知参数很有用，以便更好地 "理解" 随机变量 $X$ 。我们希望确保估计应该 "好"^[3] 足够，这样理解才会更准确。

直观地说，随机样本 $X_{1},\dotsc ,X_{n}$ 的（实现）应该是有用的。事实上，本章介绍的估计量在某种程度上都是基于随机样本的，这就是 点估计 的含义。为了更精确，让我们定义 点估计 和 点估计。

定义。 (点估计) 点估计 是使用 统计量 的值来给出未知参数的单值估计（可以解释为一个点）的过程。

备注。

回想一下，统计量 是随机样本的函数。
我们将未知参数称为 总体参数（因为与参数对应的底层分布称为总体）。
这个统计量称为点估计量，它的具体值称为点估计。

点估计量的符号通常带有 ${\hat {}}$ 。

点估计与区间估计形成对比，区间估计使用统计量的值来估计未知参数的区间。

示例。假设 $X_{1},\dotsc ,X_{n}$ 是从正态分布 ${\mathcal {N}}(\mu ,\sigma ^{2})$ 中抽取的 $n$ 个随机样本。

我们可以使用统计量 ${\overline {X}}={\frac {X_{1}+\dotsb +X_{n}}{n}}$ 来估计 $\mu$ ，直观上， ${\overline {X}}$ 被称为点估计量，它的具体值 ${\overline {x}}$ 被称为点估计。
或者，我们可以直接使用统计量 $X_{1}$ （尽管它不包含 $X_{2},\dotsc ,X_{n}$ ，它仍然可以被视为 $X_{1},\dotsc ,X_{n}$ 的函数）来估计 $\mu$ 。也就是说，我们使用正态分布的第一个随机样本的值作为分布均值的点估计！直观上，这种估计量似乎很“糟糕”。

这种直接使用一个随机样本的估计量被称为单观测估计量。
我们将在后面讨论如何评估点估计量的好坏。

接下来，我们将介绍两个著名的点估计量，它们实际上是相当“好”的，即最大似然估计量 和矩估计量。

最大似然估计量 (MLE)

顾名思义，这个估计量是最大化某种“似然”的估计量。现在，我们想知道应该最大化什么“似然”来估计未知参数（以“好”的方式）。此外，正如引言中提到的，估计量在某种程度上基于随机样本。因此，这种“似然”也应该在某种程度上基于随机样本。

为了更好地理解最大似然估计量的定义，请考虑以下示例。

示例. 在一个随机实验中，一枚（公平或不公平）硬币被抛掷一次。令随机变量 $X=1$ 如果出现正面，则为 $0$ 否则。那么， $X$ 的 pmf 是 $f(x;p)=p^{x}(1-p)^{1-x},\quad x\in \{0,1\}$ ，其中未知参数 $p$ 表示出现正面的概率，并且 $p\in \Theta =\{p:p\in (0,1)\}$ .

现在，假设你得到了一个随机样本 $X_{1},X_{2},\dotsc ,X_{n}$ 通过将硬币抛掷 $n$ 次独立地（这种随机样本被称为独立随机样本，因为所涉及的随机变量是独立的），相应的实现为 $x_{1},x_{2},\dotsc ,x_{n}$ 。那么， $X_{1}=x_{1},X_{2}=x_{2},\dotsc ,{\text{ and }}X_{n}=x_{n}$ ，即随机样本恰好具有这些实现，的概率是 ${\begin{aligned}\mathbb {P} (X_{1}=x_{1}\cap X_{2}=x_{2}\cap \dotsb \cap X_{n}=x_{n})&=\mathbb {P} (X_{1}=x_{1})\mathbb {P} (X_{2}=x_{2})\dotsb \mathbb {P} (X_{n}=x_{n})&{\text{by independence}}\\&=f(x_{1};p)f(x_{2};p)\dotsb f(x_{n};p)\\&=p^{x_{1}}(1-p)^{1-x_{1}}p^{x_{2}}(1-p)^{1-x_{2}}\dotsb p^{x_{n}}(1-p)^{1-x_{n}}\\&=p^{x_{1}+x_{2}+\dotsb +x_{n}}(1-p)^{n-x_{1}-x_{2}-\dotsb -x_{n}}.\end{aligned}}$

备注。

符号说明: 你可能会注意到在 $X$ 的pmf中有一个额外的" $;p$ "。这种符号表示pmf是具有参数值 $p$ 的。它被包含进来是为了强调我们所指的参数值。
一般来说，我们用 $f(\cdot ;\theta )$ 表示具有参数值 $\theta$ （ $\theta$ 可以是向量）的pmf/pdf。

一些其他符号具有相同的含义: $f(\cdot |\theta ),f_{\theta }(\cdot ),\dotsc$ .

类似地，我们有类似的符号，例如 $\mathbb {P} _{\theta }(A),\mathbb {P} (A|\theta ),\mathbb {P} (A;\theta ),\dotsc$ ，表示事件 $A$ 发生的概率，具有参数值 $\theta$ 。（使用第一个符号更常见： $\mathbb {P} _{\theta }(A)$ 。）
我们也有类似的符号表示均值、方差、协方差等，例如 $\mathbb {E} _{\theta }[\cdot ],\operatorname {Var} _{\theta }(\cdot ),\operatorname {Cov} _{\theta }(\cdot ),\dotsc$

直观地，对于这些特定的实现（固定），我们希望找到一个 $p$ 的值，使该概率最大化，即使所获得的实现成为“最可能”或“最大似然”的实现。现在，让我们正式定义与MLE相关的术语。

定义. （似然函数）设 $X_{1},\dotsc ,X_{n}$ 是一个具有联合 pmf 或 pdf $f$ 的随机样本，参数（向量）为 $\theta \in \Theta$ （ $\Theta$ 是参数空间）。假设 $x_{1},\dotsc ,x_{n}$ 是随机样本 $X_{1},\dotsc ,X_{n}$ 的对应实现。那么，似然函数，记为 ${\mathcal {L}}(\theta ;x_{1},\dotsc ,x_{n})$ ，是函数 $\theta \mapsto f(x_{1},\dotsc ,x_{n};\theta )$ （ $\theta$ 是一个变量，而 $x_{1},\dotsc ,x_{n}$ 是固定的）。

备注。

为了简单起见，我们可以使用符号 ${\mathcal {L}}(\theta ;\mathbf {x} )$ 来代替 ${\mathcal {L}}(\theta ;x_{1},\dotsc ,x_{n})$ 。有时，为了方便，我们也可以只写“ ${\mathcal {L}}(\theta ;\mathbf {x} )$ ”。

当我们用 $X_{1},\dotsc ,X_{n}$ 代替 $x_{1},\dotsc ,x_{n}$ 时，得到的“似然函数”就变成了一个随机变量，我们用 ${\mathcal {L}}(\theta ;X_{1},\dotsc ,X_{n})$ 或 ${\mathcal {L}}(\theta ;\mathbf {X} )$ 来表示。

似然函数与联合概率质量函数或概率密度函数本身形成对比，其中 $\theta$ 是固定的，而 $x_{1},\dotsc ,x_{n}$ 是变量。
当随机样本来自离散分布时，似然函数的值就是参数向量 $\theta$ 处的概率 $\mathbb {P} (X_{1}=x_{1}\cap \dotsb \cap X_{n}=x_{n})$ 。也就是说，获得此特定实现的概率。
当随机样本来自连续分布时，似然函数的值不是概率。相反，它只是联合概率密度函数在 $(x_{1},\dotsc ,x_{n})$ 处的取值（可以大于 1）。但是，该值仍然可以用来“反映”获得“非常接近”此特定实现的概率，而该概率可以通过在 $(x_{1},\dotsc ,x_{n})$ 周围的“非常小”区域内对联合概率密度函数进行积分来获得。
似然函数的自然对数， $\ln {\mathcal {L}}(\theta ;\mathbf {x} )$ （或有时为 $\ln {\mathcal {L}}(\theta ;\mathbf {X} )$ ）称为 对数似然函数。
请注意，似然函数的“表达式”实际上与联合概率密度函数的表达式相同，只是输入不同。因此，仍然可以对似然函数关于 $x_{1},\dotsc ,x_{n}$ 进行积分/求和（从某种意义上说，这在某种程度上将似然函数更改为该上下文中联合概率密度函数/概率质量函数），就好像它是联合概率密度函数/概率质量函数以获得概率。

定义。（最大似然估计）给定 似然函数 ${\mathcal {L}}(\theta ;\mathbf {x} )$ ，参数 $\theta$ 的 最大似然估计 是一个值 ${\hat {\theta }}(\mathbf {x} )$ ，在该值处 ${\mathcal {L}}(\theta ;\mathbf {x} )$ 被 最大化。

备注。

的 最大似然估计 (MLE) 是 $\theta$ ${\hat {\theta }}(\mathbf {X} )$ (通过用“ $X$ ”替换 $x$ 在 ${\hat {\theta }}(\mathbf {x} )$ 中得到)。

在其他一些地方，缩写 MLE 也可能表示最大似然估计，具体取决于上下文。但是，在这里讨论最大似然估计时，我们只使用缩写 MLE。

由于 ${\frac {d}{dy}}\ln y={\frac {1}{y}}>0$ (自然对数函数的定义域是所有正实数的集合)，自然对数函数是严格递增的，即输入越大，输出越大。因此，当我们找到一个值，使 $\ln {\mathcal {L}}(\theta ;\mathbf {x} )$ 最大化时， ${\mathcal {L}}(\theta ;\mathbf {x} )$ 在相同的值上也也最大化。

现在，让我们找到前一个抛硬币例子中未知参数 $p$ 的 MLE。

例子. (重温激励例子) 回想一下，我们用抛硬币的例子来激励最大似然估计。 $X$ 服从以 $p$ 为成功概率的伯努利分布。 $X$ 的 pmf 是 $f(x;p)=p^{x}(1-p)^{1-x}$ 。 $X_{1},\dotsc ,X_{n}$ 是来自该分布的随机样本。

似然函数 ${\mathcal {L}}(p)$ 是 $X_{1},\dotsc ,X_{n}$ 的联合 pmf，

${\begin{aligned}\mathbb {P} (X_{1}=x_{1}\cap \dotsb \cap X_{n}=x_{n})&=\prod _{i=1}^{n}f(x_{i};p)&{\text{by independence}}\\&=\prod _{i=1}^{n}p^{x_{i}}(1-p)^{1-x_{i}}\\\end{aligned}}$

因此，对数似然函数 $\ln {\mathcal {L}}(p)$ 为

${\begin{aligned}\ln {\mathcal {L}}(p)&=\sum _{i=1}^{n}\ln(p^{x_{i}}(1-p)^{1-x_{i}})\\&=\sum _{i=1}^{n}(\ln(p^{x_{i}})+\ln((1-p)^{1-x_{i}}))\\&=\sum _{i=1}^{n}(x_{i}\ln(p)+(1-x_{i})\ln(1-p))\\&=\sum _{i=1}^{n}(x_{i}\ln(p))+\sum _{i=1}^{n}((1-x_{i})\ln(1-p))\\&=\ln(p)\sum _{i=1}^{n}(x_{i})+\ln(1-p)\sum _{i=1}^{n}(1-x_{i})\\&=\ln(p)\sum _{i=1}^{n}(x_{i})+\ln(1-p)\left(n-\sum _{i=1}^{n}(x_{i})\right)\\\end{aligned}}$

为了找到对数似然函数的最大值，我们可以使用微积分中学习的导数测试。对 $\ln {\mathcal {L}}(p)$ 关于 $p$ 求导得到

${\begin{aligned}{\frac {d\ln {\mathcal {L}}(p)}{dp}}&={\frac {1}{\color {blue}p}}\underbrace {\sum _{i=1}^{n}x_{i}} _{{\text{constant wrt }}p}-{\frac {1}{\color {red}1-p}}\underbrace {\left(n-\sum _{i=1}^{n}x_{i}\right)} _{{\text{constant wrt }}p}\\&={\frac {{\color {red}(1-p)}\sum _{i=1}^{n}x_{i}-n{\color {blue}p}+{\color {blue}p}\sum _{i=1}^{n}x_{i}}{{\color {blue}p}{\color {red}(1-p)}}}\\&={\frac {(1-p)n{\overline {x}}-np+pn{\overline {x}}}{p(1-p)}}&\left(\sum _{i=1}^{n}x_{i}=n{\overline {x}}=n\cdot {\frac {\sum _{i=1}^{n}x_{i}}{n}}\right)\\&={\frac {n({\overline {x}}-p)}{p(1-p)}}\end{aligned}}$

为了找到 $\ln {\mathcal {L}}(p)$ 的临界点，我们令 ${\frac {d\ln {\mathcal {L}}(p)}{dp}}=0\implies {\frac {n({\overline {x}}-p)}{p(1-p)}}=0\implies p={\overline {x}}$ （我们有 $p(1-p)\neq 0$ ）。
为了验证 $\ln {\mathcal {L}}(p)$ 实际上在 $p={\overline {x}}$ 处取得 最大值 （而不是最小值），我们需要进行导数检验。在本例中，我们使用一阶导数检验。
我们可以看到，当 $p<{\overline {x}}$ 时， ${\frac {d\ln {\mathcal {L}}(p)}{dp}}>0$ ，这使得 ${\overline {x}}-p>0$ ，因此 ${\frac {d\ln {\mathcal {L}}(p)}{dp}}>0$ 。另一方面，当 $p>{\overline {x}}$ 时，这使得 ${\overline {x}}-p<0$ ，因此 ${\frac {d\ln {\mathcal {L}}(p)}{dp}}<0$ 。因此，我们可以得出结论： $\ln {\mathcal {L}}(p)$ 在 $p={\overline {x}}$ 处取得最大值。因此， $p$ 的MLE是 ${\overline {X}}$ （而不是 ${\overline {x}}$ ，这是最大似然估计！）

练习。使用二阶导数检验验证 $\ln {\mathcal {L}}(p)$ 在 $p={\overline {x}}$ 处取得最大值。

解

由于 ${\frac {d^{2}\ln {\mathcal {L}}(p)}{dp^{2}}}={\frac {-np(1-p)-n({\overline {x}}-p)(2p)}{p^{2}(1-p)^{2}}}$ ，其中分子为负，分母为正。因此， ${\frac {d^{2}\ln {\mathcal {L}}(p)}{dp^{2}}}<0$ 。根据二阶导数检验，这意味着 $\ln {\mathcal {L}}(p)$ 在 $p={\overline {x}}$ 处取得最大值。

有时，在寻找参数的最大似然估计时，对参数会施加约束。这种情况下参数的最大似然估计被称为受限最大似然估计。我们将在以下例子中说明这一点。

示例： 继续前面硬币翻转的例子。假设对 $p$ 有约束条件，其中 $0\leq p\leq {\frac {1}{2}}$ 。在这种情况下，找到 $p$ 的最大似然估计。

解：关于推导似然函数和对数似然函数的步骤，在这种情况下是相同的。如果没有限制， $p$ 的最大似然估计为 ${\overline {X}}$ 。现在，有了限制， $p$ 的最大似然估计为 ${\overline {X}}$ ，仅当 ${\overline {X}}\leq {\frac {1}{2}}$ 时（我们总是拥有 ${\overline {X}}\geq 0$ ，因为 $X\geq 0$ ）。

If ${\overline {X}}>{\frac {1}{2}}$ (and thus ${\overline {x}}>1/2$ ), even though $\ln {\mathcal {L}}(p)$ is maximized at $p={\overline {x}}$ , we cannot set the MLE to be ${\overline {X}}$ due to the restriction on $p$ : $0\leq p\leq {\frac {1}{2}}$ . Under this case, this means ${\frac {d\ln {\mathcal {L}}(p)}{dp}}>0$ when $p\leq {\frac {1}{2}}<{\overline {X}}$ (we have ${\frac {d\ln {\mathcal {L}}(p)}{dp}}>0$ when $p<{\overline {x}}$ from previous example), i.e., $\ln {\mathcal {L}}(p)$ is strictly increasing when $p\leq {\frac {1}{2}}$ . Thus, $\ln {\mathcal {L}}(p)$ is maximized when $p={\frac {1}{2}}$ with the restriction. As a result, the MLE of $p$ is ${\frac {1}{2}}$ (the MLE can be a constant, which can still be regarded as a function of $X_{1},\dotsc ,X_{n}$ ).

因此， $p$ 的最大似然估计可以写成一个分段函数： ${\hat {\theta }}={\begin{cases}{\overline {X}},&{\overline {X}}\leq {\frac {1}{2}}\\{\frac {1}{2}},&{\overline {X}}>{\frac {1}{2}}\end{cases}}$ ，或者可以写成 ${\hat {\theta }}=\min \left\{{\overline {X}},{\frac {1}{2}}\right\}$

练习。 当 ${\frac {1}{2}}\leq p\leq 1$ 时，求 $p$ 的最大似然估计。

解

当 ${\overline {X}}<{\frac {1}{2}}$ 时，我们不能将最大似然估计设置为 ${\overline {X}}$ ，因为存在限制。在这种情况下，我们知道当 $p\geq {\frac {1}{2}}>{\overline {X}}$ 时， ${\frac {d\ln {\mathcal {L}}(p)}{dp}}<0$ ，即当 ${\frac {1}{2}}\leq p\leq 1$ 时， $\ln {\mathcal {L}}(p)$ 是严格递减的。因此， $\ln {\mathcal {L}}(p)$ 在 $p={\frac {1}{2}}$ 处取得最大值，因此 $p$ 的最大似然估计是 ${\frac {1}{2}}$ 。
当 ${\overline {X}}\geq {\frac {1}{2}}$ 时，我们可以将 MLE 设置为 ${\overline {X}}$ ，此时 $\ln {\mathcal {L}}(p)$ 被最大化，因此 ${\overline {X}}$ 是 $p$ 在这种情况下的 MLE。
因此， $p$ 的 MLE 为 ${\hat {\theta }}=\max \left\{{\overline {X}},{\frac {1}{2}}\right\}$ 。

为了找到 MLE，我们有时会使用导数检验以外的方法，我们不需要找到对数似然函数。让我们在以下示例中说明这一点。

示例。 令 $X_{1},\dotsc ,X_{n}$ 为来自均匀分布 ${\mathcal {U}}[0,\beta ]$ 的随机样本。求 $\beta$ 的 MLE。

解: 均匀分布的 pdf 为 $f(x;\beta )={\frac {1}{\beta }}\mathbf {1} \{0\leq x\leq \beta \}$ 。因此，似然函数为 ${\mathcal {L}}(\beta )=\prod _{i=1}^{n}{\frac {1}{\beta }}\mathbf {1} \{0\leq x_{i}\leq \beta \}={\frac {1}{\beta ^{n}}}\prod _{i=1}^{n}\mathbf {1} \{0\leq x_{i}\leq \beta \}$ 。

为了使 ${\mathcal {L}}(\beta )$ 达到最大值，首先，我们需要确保对于每一个 $i\in \{1,\dotsc ,n\}$ 都有 $0\leq x_{i}\leq \beta$ ，这样似然函数中的指示函数的乘积才非零（在这种情况下，值为 1）。除此之外，由于 $\beta \mapsto {\frac {1}{\beta ^{n}}}$ 是 $\beta$ 的严格递减函数（因为 ${\frac {d}{d\beta }}\left({\frac {1}{\beta ^{n}}}\right)={\frac {-n}{\beta ^{n+1}}}<0$ （我们有 $n,\beta >0$ ）），我们应该选择一个尽可能小的 $\beta$ ，这样 ${\frac {1}{\beta ^{n}}}$ ，因此 ${\mathcal {L}}(\beta )$ ，尽可能大。

因此，我们应该选择一个尽可能小的 $\beta$ ，前提是满足约束条件 $0\leq x_{i}\leq \beta$ 对每个 $i\in \{1,\dotsc ,n\}$ ，这意味着 $\beta \geq x_{i}$ （无论 $\beta$ 的选择如何，总有 $x_{i}\geq 0$ ）对每个 $i\in \{1,\dotsc ,n\}$ 。由此可知， ${\mathcal {L}}(\beta )$ 当 $\beta$ 是 $x_{1},\dotsc ,x_{n}$ 的最大值时，达到最大值。因此， $\beta$ 的最大似然估计是 ${\hat {\beta }}=\max\{X_{1},\dotsc ,X_{n}\}$ .

练习。证明如果均匀分布变成 ${\mathcal {U}}[0,\beta )$ ，则 $\beta$ 的最大似然估计不存在。

解

Proof. In this case, the constraint from the indicator functions become $0\leq x_{i}<\beta$ for each $i\in \{1,\dotsc ,n\}$ . With similar argument, for the MLE of $\beta$ , we should choose a $\beta$ that is as small as possible subject to this constraint, which means $\beta >x_{i}$ for each $i\in \{1,\dotsc ,n\}$ . However, in this case, we cannot set $\beta$ to be the maximum of $x_{1},\dotsc ,x_{n}$ , or else the constraint will not be satisfied and the likelihood function becomes zero due to the indicator function. Instead, we should set $\beta$ to be slightly greater than the maximum of $x_{1},\dotsc ,x_{n}$ , so that the constraint can still be satisifed, and $\beta$ is quite small. However, for each such $\beta >\max\{x_{1},\dotsc ,x_{n}\}$ , we can always chooses a smaller $\beta$ that still satisfies the constraint. For example, for each $\beta$ , the smaller beta, $\beta '$ can be selected as $\max\{x_{1},\dotsc ,x_{n}\}+{\frac {\beta -\max\{x_{1},\dotsc ,x_{n}\}}{2}}>\max\{x_{1},\dotsc ,x_{n}\}$ ^[4]. Hence, we cannot find a minimum value of $\beta$ subject to this constraint. Thus, there is no maximum point for $\ln {\mathcal {L}}(p)$ , and hence the MLE does not exist.

$\Box$

在下面的例子中，我们将找到参数向量的最大似然估计。

例如。 令 $X_{1},\dotsc ,X_{n}$ 为来自均值为 $\theta _{1}$ 方差为 $\theta _{2}$ 的正态分布的随机样本， ${\mathcal {N}}(\theta _{1},\theta _{2})$ 。求 $(\theta _{1},\theta _{2})$ 的最大似然估计。

解: 令 $\theta =(\theta _{1},\theta _{2})$ 。似然函数为 ${\mathcal {L}}(\theta ;\mathbf {x} )=\prod _{i=1}^{n}{\frac {1}{\sqrt {2\pi \theta _{2}}}}\exp \left(-{\frac {(x_{i}-\theta _{1})^{2}}{2\theta _{2}}}\right)=(2\pi \theta _{2})^{-n/2}\exp \left(-\sum _{i=1}^{n}{\frac {(x_{i}-\theta _{1})^{2}}{2\theta _{2}}}\right)$ ，因此对数似然函数为 $\ln {\mathcal {L}}(\theta ;\mathbf {x} )=-{\frac {n}{2}}\ln(2\pi \theta _{2})-\sum _{i=1}^{n}{\frac {(x_{i}-\theta _{1})^{2}}{2\theta _{2}}}$ 。由于此函数是多元的，我们可以使用多元微积分中的二阶偏导数检验来寻找最大点。但是，在这种情况下，我们实际上不需要使用此测试。相反，我们可以一次固定一个变量，使函数变成一元函数，这样我们就可以使用一元函数的导数测试来寻找最大点（另一个变量固定）。

由于 ${\frac {\partial \ln {\mathcal {L}}(\theta ;\mathbf {x} )}{\partial \theta _{1}}}={\frac {1}{\theta _{2}}}\sum _{i=1}^{n}(x_{i}-\theta _{1})$ 和 ${\frac {\partial \ln {\mathcal {L}}(\theta ;\mathbf {x} )}{\partial \theta _{2}}}=-{\frac {2n\pi }{4\pi \theta _{2}}}+{\frac {1}{2\theta _{2}^{2}}}\sum _{i=1}^{n}(x_{i}-\theta _{1})^{2}=-{\frac {n}{2\theta _{2}}}+{\frac {1}{2\theta _{2}^{2}}}\sum _{i=1}^{n}(x_{i}-\theta _{1})^{2}$ 。

此外， ${\frac {\partial \ln {\mathcal {L}}(\theta ;\mathbf {x} )}{\partial \theta _{1}}}=0\implies \sum _{i=1}^{n}(x_{i}-\theta _{1})=0\implies -n\theta _{1}+\sum _{i=1}^{n}x_{i}=0\implies \theta _{1}={\frac {\sum _{i=1}^{n}x_{i}}{n}}={\overline {x}}$ ，与 $\theta _{2}$ 无关（这对我们使用这种方法很重要），并且 ${\frac {\partial \ln {\mathcal {L}}(\theta ;\mathbf {x} )}{\partial \theta _{2}}}=0\implies {\frac {n}{2\theta _{2}}}={\frac {1}{2\theta _{2}^{2}}}\left(\sum _{i=1}^{n}(x_{i}-\theta _{1})^{2}\right)\implies n={\frac {1}{\theta _{2}}}\left(\sum _{i=1}^{n}(x_{i}-\theta _{1})^{2}\right)\implies \theta _{2}={\frac {\sum _{i=1}^{n}(x_{i}-\theta _{1})^{2}}{n}}$ 。

由于 ${\frac {\partial ^{2}\ln {\mathcal {L}}(\theta ;\mathbf {x} )}{\partial \theta _{1}^{2}}}={\frac {\partial }{\partial \theta _{1}}}\left({\frac {1}{\theta _{2}}}\sum _{i=1}^{n}(x_{i}-\theta _{1})\right)={\frac {1}{\theta _{2}}}\sum _{i=1}^{n}(-1)={\frac {-n}{\theta _{2}}}<0$ , 根据二阶导数检验（对于单变量函数）， $\ln {\mathcal {L}}(\theta ;\mathbf {x} )$ 在 $\theta _{1}={\overline {x}}$ 处取到最大值，在任意固定的 $\theta _{2}$ 下。

另一方面，由于 ${\frac {\partial ^{2}\ln {\mathcal {L}}(\theta ;\mathbf {x} )}{\partial \theta _{2}^{2}}}={\frac {n}{2\theta _{2}^{2}}}-{\frac {1}{\theta _{2}^{3}}}\sum _{i=1}^{n}(x_{i}-\theta _{1})^{2}$ , 因此 $\left.{\frac {\partial ^{2}\ln {\mathcal {L}}(\theta ;\mathbf {x} )}{\partial \theta _{2}^{2}}}\right\vert _{\theta _{2}={\frac {\sum _{i=1}^{n}(x_{i}-\theta _{1})^{2}}{n}}}={\frac {1}{2n\left(\sum _{i=1}^{n}(x_{i}-\theta _{1})^{2}\right)^{2}}}-{\frac {n^{3}}{\left(\sum _{i=1}^{n}(x_{i}-\theta _{1})^{2}\right)^{2}}}={\frac {1-2n^{4}}{2n\left(\sum _{i=1}^{n}(x_{i}-\theta _{1})^{2}\right)^{2}}}<0$ （由于 $2n^{4}>1$ ）。

因此，根据二阶导数检验， $\ln {\mathcal {L}}(\theta ;\mathbf {x} )$ 在 $\theta _{2}={\frac {\sum _{i=1}^{n}(x_{i}-\theta _{1})^{2}}{n}}$ 处取得最大值，在任何固定的 $\theta _{1}$ 情况下。

因此，我们现在固定 $\theta _{1}={\overline {x}}$ ，因此我们有 $\ln {\mathcal {L}}(\theta ;\mathbf {x} )$ 在 $\theta _{2}={\frac {\sum _{i=1}^{n}(x_{i}-{\overline {x}})^{2}}{n}}=s^{2}$ 处取得最大值，其中 $s^{2}$ 是样本方差 $S^{2}$ 的实现。现在，固定 $\theta _{2}$ 为 $s^{2}$ ，我们知道 $\ln {\mathcal {L}}(\theta ;\mathbf {x} )$ 在 $\theta _{1}={\overline {x}}$ 处取得最大值，对于每个固定的 $\theta _{2}$ ，包括这个固定的 $\theta _{2}=s^{2}$ 。因此， $\ln {\mathcal {L}}(\theta ;\mathbf {x} )$ 在 $(\theta _{1},\theta _{2})=({\overline {x}},s^{2})$ 处取得最大值。因此， $(\theta _{1},\theta _{2})$ 的最大似然估计是 $({\overline {X}},S^{2})$ 。

练习。

(a) 计算 $\ln {\mathcal {L}}(\theta ;\mathbf {x} )$ 的 Hessian 矩阵在 $(\theta _{1},\theta _{2})=({\overline {x}},s^{2})$ 处的行列式，可以表示为 ${\frac {\partial ^{2}\ln {\mathcal {L}}}{\partial \theta _{1}^{2}}}({\overline {x}},s^{2}){\frac {\partial ^{2}\ln {\mathcal {L}}}{\partial \theta _{2}^{2}}}({\overline {x}},s^{2})-\left({\frac {\partial ^{2}\ln {\mathcal {L}}}{\partial \theta _{2}\partial \theta _{1}}}({\overline {x}},s^{2})\right)^{2}$ .

(b) 因此，使用二阶偏导数检验，验证 $(\theta _{1},\theta _{2})=({\overline {x}},s^{2})$ 是 $\ln {\mathcal {L}}(\theta ;\mathbf {x} )$ 的最大值点。

解

(a) 首先,

${\frac {\partial ^{2}\ln {\mathcal {L}}}{\partial \theta _{1}^{2}}}({\overline {x}},s^{2}){\overset {\text{above}}{=}}\left.{\frac {-n}{\theta _{2}}}\right\vert _{\theta _{2}=s^{2}}={\frac {-n}{s^{2}}}$
${\frac {\partial ^{2}\ln {\mathcal {L}}}{\partial \theta _{2}^{2}}}({\overline {x}},s^{2}){\overset {\text{above}}{=}}\left.{\frac {n}{2\theta _{2}^{2}}}-{\frac {1}{\theta _{2}^{3}}}\sum _{i=1}^{n}(x_{i}-\theta _{1})^{2}\right\vert _{(\theta _{1},\theta _{2})=({\overline {x}},s^{2})}={\frac {n}{2(s^{2})^{2}}}-{\frac {1}{(s^{2})^{3}}}\cdot ns^{2}={\frac {n}{2(s^{2})^{2}}}-{\frac {n}{(s^{2})^{2}}}={\frac {-n}{2(s^{2})^{2}}}$
${\frac {-n}{s^{2}}}\cdot {\frac {-n}{2(s^{2})^{2}}}={\frac {n^{2}}{2(s^{2})^{3}}}$

练习。 令 $X_{1},\dotsc ,X_{n}$ 是来自速率参数为 $\lambda$ 的指数分布的随机样本，其 pdf 为 $f(x;\lambda )=\lambda e^{-\lambda x},\quad x\geq 0$ ，其中 $\lambda >0$ 。证明 $\lambda$ 的 MLE 为 ${\frac {1}{\overline {X}}}$ 。

解

证明： 似然函数为 ${\mathcal {L}}(\lambda )=\prod _{i=1}^{n}(\lambda e^{-\lambda x_{i}})=\lambda ^{n}\exp \left(-\lambda \sum _{i=1}^{n}x_{i}\right)$ 。因此，对数似然函数为 $\ln {\mathcal {L}}(\lambda )=n\ln \lambda -\lambda \sum _{i=1}^{n}x_{i}$ 。对对数似然函数关于 $\lambda$ 求导，得到 ${\frac {d}{d\lambda }}\ln {\mathcal {L}}(\lambda )={\frac {n}{\lambda }}-\sum _{i=1}^{n}x_{i}$ 。将导数设为零，得到 ${\frac {n}{\lambda }}-\sum _{i=1}^{n}x_{i}=0\implies {\frac {n}{\lambda }}-n{\overline {x}}=0\implies {\frac {1}{\lambda }}={\overline {x}}\implies \lambda ={\frac {1}{\overline {x}}}$ 。仍然需要验证 $\ln {\mathcal {L}}(\lambda )$ 在 $\lambda ={\frac {1}{\overline {x}}}$ 处取得最大值。由于 ${\frac {d^{2}}{d\lambda ^{2}}}\ln {\mathcal {L}}(\lambda )=-{\frac {n}{\lambda ^{2}}}<0$ ，因此得到验证。因此， $\lambda$ 的最大似然估计是 ${\frac {1}{\overline {X}}}$ 。

$\Box$

示例： （最大似然估计的应用）假设你有一个盒子，里面有四个球，但你不知道红球和黑球的数量。现在，你从盒子里抽取了三个球，发现你得到了两个红球和一个黑球。使用最大似然估计，估计盒子里红球和黑球的数量。

解决方案: 根据抽取的球的颜色，我们知道盒子中至少有两个红色球和至少一个黑色球。这意味着盒子中要么有两个红色球，要么有三个红色球。令 $r$ 表示盒子中的红色球的数量。那么，盒子中黑色球的数量为 $4-r$ 。参数 $r$ 的可能值为 2 和 3。

现在，我们比较当 $r=2$ 和 $r=3$ 时，从盒子中抽取三个球得到这种结果的概率。

对于 $r=2$ ，概率为 ${\frac {{\binom {2}{2}}{\binom {2}{1}}}{\binom {4}{3}}}={\frac {1}{2}}$ （考虑超几何分布的概率质量函数）。
对于 $r=3$ ，概率为 ${\frac {{\binom {3}{2}}{\binom {1}{1}}}{\binom {4}{3}}}={\frac {3}{4}}$ 。

因此， $r$ 的最大似然估计为 3。因此，估计的红色球数量为 3，黑色球数量为 1。

练习。 假设盒子现在包含 100 个球，其中红色球和黑色球的数量未知。现在，你从盒子中抽出 99 个球，发现你得到了 98 个红色球和一个黑色球。使用最大似然估计，估计盒子中红色球和黑色球的数量。

解

类似地，盒子中至少有 98 个红色球和一个黑色球。我们使用与上面例子中相同的符号。那么，黑色球的数量为 $100-r$ ，参数 $r$ 的可能值为 98 和 99。

对于 $r=98$ ，概率为 ${\frac {{\binom {98}{98}}{\binom {2}{1}}}{\binom {100}{99}}}=0.02$
当 $r=99$ 时，概率为 ${\frac {{\binom {99}{98}}{\binom {1}{1}}}{\binom {100}{99}}}=0.99$

因此， $r$ 的最大似然估计值为 99。因此，估计的红球数量为 99，黑球数量为 1。

备注。

在这种情况下， $r$ 两个可能值的概率差异变得更大。
直观地说，当你得到这样的抽取结果时，你会认为盒子里面不太可能有两个黑球，也就是说，没有被抽到的球实际上是黑色的，而你却不知何故抽出了所有红球，而没有抽到黑球。

矩估计法 (MME)

对于最大似然估计，我们需要利用似然函数，它从一个分布的随机样本的联合概率质量函数或概率密度函数中得到。然而，在实践中，我们可能不确切地知道分布的概率质量函数或概率密度函数。相反，我们可能只知道一些关于分布的信息，例如均值、方差和一些矩 ( $r$ 阶随机变量 $X$ 的矩为 $\mathbb {E} [X^{r}]$ ，为了简便，我们将其表示为 $\mu _{r}$ )。这些矩通常包含关于未知参数的信息。例如，对于正态分布 ${\mathcal {N}}(\mu ,\sigma ^{2})$ ，我们知道 $\mu =\mu _{1}$ 和 $\sigma ^{2}=\mu _{2}-(\mu _{1})^{2}$ 。因此，当我们想要估计参数时，可以通过估计矩来实现。

现在，我们想知道如何估计矩。我们设 $m_{r}={\frac {\sum _{i=1}^{n}X_{i}^{r}}{n}}$ 为 $r$ 阶 样本矩 ^[5]，其中 $X_{i}$ 是独立同分布的。根据 大数定律（假设条件满足），我们有

${\overline {X}}=m_{1}\;{\overset {p}{\to }}\;\mathbb {E} [X]=\mu _{1}$
$m_{2}\;{\overset {p}{\to }}\;\mathbb {E} [X^{2}]=\mu _{2}$ （这可以通过在弱大数定律中用 " $X$ " 替换 " $X^{2}$ " 来看到，条件仍然满足，因此我们仍然可以应用弱大数定律）。

一般情况下，我们有 $m_{r}\;{\overset {p}{\to }}\;\mu _{r}$ ，因为在弱大数定律中用 " $X$ " 替换 " $X^{r}$ " 之后，条件仍然满足。

由于这些结果，我们可以使用 $r$ 阶样本矩 $m_{r}$ 来估计 $r$ 阶矩 $\mu _{r}$ ，当 $n$ 很大时，估计值会“更好”。例如，在上面的正态分布示例中，我们可以用 $m_{1}$ 来估计 $\mu$ ，用 $m_{2}-(m_{1})^{2}$ 来估计 $\sigma ^{2}$ ，这些估计量实际上被称为 矩估计法。

更准确地说，我们有以下 矩方法 的定义。

定义。 (矩估计法) 令 $X_{1},\dotsc ,X_{n}$ 为一个随机样本，来自具有概率密度函数或概率质量函数 $f(x;\theta _{1},\dotsc ,\theta _{k})$ 的分布。写出 $k$ 个矩，例如 $\mu _{1},\dotsc ,\mu _{k}$ ，作为 $\theta _{1},\dotsc ,\theta _{k}$ 的函数： $g_{1}(\theta _{1},\dotsc ,\theta _{k}),\dotsc ,g_{k}(\theta _{1},\dotsc ,\theta _{k})$ 分别。那么，矩估计量 (MME) 的 $\theta _{1},\dotsc ,\theta _{k}$ ， ${\hat {\theta }}_{1},\dotsc ,{\hat {\theta }}_{k}$ 分别，由方程组的解给出（用 ${\hat {\theta }}_{1},\dotsc ,{\hat {\theta }}_{k}$ 表示，以 $m_{1},\dotsc ,m_{k}$ 表示，对应于 $k$ 个矩 $\mu _{1},\dotsc ,\mu _{k}$ ) 对以下方程组： ${\begin{cases}m_{1}=g_{1}({\hat {\theta }}_{1},\dotsc ,{\hat {\theta }}_{k})\\\vdots \\m_{k}=g_{k}({\hat {\theta }}_{1},\dotsc ,{\hat {\theta }}_{k})\\\end{cases}}$

备注。

当存在 $k$ 个未知参数时，我们需要求解一个包含 $k$ 个样本矩的 $k$ 个方程组。
通常，我们根据定义选择前 $k$ 个矩作为 $k$ 个矩。但这并非必要，我们可以选择其他矩，包括分数矩（例如 $\mathbb {E} [X^{1/2}]$ ，在这种情况下，我们使用 $m_{1/2}$ ）。

因此，矩估计方法不是唯一的。

示例. 设 $X_{1},\dotsc ,X_{n}$ 是来自正态分布 ${\mathcal {N}}(\mu ,\sigma ^{2})$ 的随机样本。求 $\mu$ 和 $\sigma ^{2}$ 的矩估计量。

解决方案: 首先，有两个未知参数。因此，我们需要求解一个包含 2 个样本矩和 2 个矩的 2 个方程组。由于 $\mu _{1}=\mu$ 并且 $\mu _{2}=\sigma ^{2}+(\mu )^{2}$ ，考虑以下方程组： ${\begin{cases}m_{1}={\hat {\mu }}&(1)\\m_{2}={\widehat {\sigma ^{2}}}+({\hat {\mu }})^{2}&(2)\\\end{cases}}$ 将 $(1)$ 代入 $(2)$ ，得到 $m_{2}={\widehat {\sigma ^{2}}}+(m_{1})^{2}\Leftrightarrow {\widehat {\sigma ^{2}}}=m_{2}-(m_{1})^{2}$ 。因此， $\mu$ 的矩估计量为 ${\hat {\mu }}=m_{1}$ ， $\sigma ^{2}$ 的矩估计量为 ${\widehat {\sigma ^{2}}}=m_{2}-(m_{1})^{2}$ 。

备注。

我们可以看到，找到 $\mu$ 和 $\sigma ^{2}$ 的矩估计量要比找到 $\mu$ 和 $\sigma ^{2}$ 的最大似然估计量容易得多。这是因为在这种情况下，一阶矩和二阶矩关于参数的表达式很简单。然而，当表达式更复杂时，找到参数的矩估计量可能会相当复杂。

例如。 令 $X_{1},\dotsc ,X_{n}$ 是来自速率参数为 $\lambda$ 的指数分布的随机样本。求 $\lambda$ 的矩估计量，并将其与 $\lambda$ 的最大似然估计量进行比较。

解: 由于 $\mu _{1}={\frac {1}{\lambda }}$ ，考虑以下等式： $m_{1}={\frac {1}{\hat {\lambda }}}$ 。然后我们有 ${\hat {\lambda }}={\frac {1}{m_{1}}}$ 。因此， $\lambda$ 的矩估计量为 ${\hat {\lambda }}={\frac {1}{m_{1}}}={\frac {1}{\overline {X}}}$ ，这与 $\lambda$ 的最大似然估计量相同。

练习。 令 $X_{1},\dotsc ,X_{n}$ 是从均匀分布 ${\mathcal {U}}[a,b]$ 中抽取的随机样本。证明 $a$ 和 $b$ 的矩估计量分别是 ${\hat {a}}=m_{1}-{\sqrt {3(m_{2}-m_{1}^{2})}}$ 和 ${\hat {b}}=m_{1}+{\sqrt {3(m_{2}-m_{1}^{2})}}$ 。

解

Proof. Since $\mu _{1}={\frac {a+b}{2}}$ and $\mu _{2}={\frac {(b-a)^{2}}{12}}+\left({\frac {a+b}{2}}\right)^{2}={\frac {b^{2}-2ab+a^{2}+3a^{2}+6ab+3b^{2}}{12}}={\frac {4a^{2}+4b^{2}+4ab}{12}}={\frac {a^{2}+b^{2}+ab}{3}}$ , consider the following system of equations: ${\begin{cases}m_{1}=({\hat {a}}+{\hat {b}})/2&(1)\\m_{2}=({\hat {a}}^{2}+{\hat {a}}{\hat {b}}+{\hat {b}}^{2})/3&(b)\\\end{cases}}$ From $(1)$ , we have ${\hat {b}}=2m_{1}-{\hat {a}}$ . Substituting it into $(2)$ , we have $m_{2}={\big (}{\hat {a}}^{2}+{\hat {a}}(2m_{1}-{\hat {a}})+(2m_{1}-{\hat {a}})^{2}{\big )}/3-{\big (}{\hat {a}}^{2}+2m_{1}{\hat {a}}-{\hat {a}}^{2}+4m_{1}^{2}-4m_{1}{\hat {a}}+{\hat {a}}^{2}{\big )}/3\Leftrightarrow {\hat {a}}^{2}-2m_{1}{\hat {a}}+4m_{1}^{2}=3m_{2}\Leftrightarrow {\hat {a}}^{2}-2m_{1}{\hat {a}}+4m_{1}^{2}-3m_{2}=0$ Solving this equation by quadratic formula, we get ${\hat {a}}={\frac {2m_{1}\pm {\sqrt {4m_{1}^{2}-4(4m_{1}^{2}-3m_{2})}}}{2}}={\frac {2m_{1}\pm {\sqrt {12m_{2}-12m_{1}^{2}}}}{2}}={\frac {2m_{1}\pm 2{\sqrt {3(m_{2}-m_{1}^{2})}}}{2}}=m_{1}\pm {\sqrt {3(m_{2}-m_{1}^{2})}}$ .

当 ${\hat {a}}=m_{1}+{\sqrt {3(m_{2}-m_{1}^{2})}}$ 时， ${\hat {b}}=m_{1}-{\sqrt {3(m_{2}-m_{1}^{2})}}<{\hat {a}}$ 。然而，根据均匀分布的定义，我们需要有 ${\hat {a}}<{\hat {b}}$ ，因此这种情况被拒绝。

当 ${\hat {a}}=m_{1}-{\sqrt {3(m_{2}-m_{1}^{2})}}$ 时， ${\hat {b}}=m_{1}+{\sqrt {3(m_{2}-m_{1}^{2})}}>{\hat {a}}$ ，这满足均匀分布的定义。

因此，我们得到了期望的结果。

$\Box$

估计量的性质

在本节中，我们将介绍一些评估点估计量“好坏”的标准，即 无偏性、有效性 和 一致性。

无偏性

为了使 ${\hat {\theta }}$ 成为参数 $\theta$ 的“良好”估计量， ${\hat {\theta }}$ 的一个理想属性是它的期望值等于参数 $\theta$ 的值，或者至少接近该值。为此，我们引入一个值，即偏差，用于衡量 ${\hat {\theta }}$ 的平均值与 $\theta$ 之间的接近程度。

定义。（偏差）估计量 ${\hat {\theta }}$ 的偏差为 $\operatorname {Bias} ({\hat {\theta }})=\mathbb {E} [{\hat {\theta }}]-\theta .$

我们还将定义一些与偏差相关的术语。

定义。（无偏估计量）如果 $\operatorname {Bias} ({\hat {\theta }})=0$ ，则估计量 ${\hat {\theta }}$ 是参数 $\theta$ 的 无偏估计量。否则，该估计量称为 有偏估计量。

定义。（渐近无偏估计量）如果 $\lim _{n\to \infty }\operatorname {Bias} ({\hat {\theta }})=0$ （其中 $n$ 是样本量），则估计量 ${\hat {\theta }}$ 是参数 $\theta$ 的 渐近无偏估计量。

备注。

无偏估计量必须是渐近无偏估计量，但反之不成立，即渐近无偏估计量可能不是无偏估计量。因此，有偏估计量可以是渐近无偏估计量。
当我们从无偏性的角度讨论估计量的优劣时，无偏估计量优于渐近无偏估计量，渐近无偏估计量优于有偏估计量。

然而，除了无偏性之外，还有其他评估估计量优劣的标准，因此，当我们也考虑其他标准时，有偏估计量可能在总体上比无偏估计量“更好”。

示例。 令 $X_{1},\dotsc ,X_{n}$ 是来自伯努利分布的随机样本，其成功概率为 $p$ 。证明 $p$ 的最大似然估计量 ${\overline {X}}$ 是 $p$ 的无偏估计量。

证明。 由于 $\mathbb {E} [{\overline {X}}]={\frac {1}{n}}\cdot \mathbb {E} \left[\sum _{i=1}^{n}X_{i}\right]={\frac {1}{n}}\sum _{i=1}^{n}\mathbb {E} [X_{i}]={\frac {1}{n}}\cdot \sum _{i=1}^{n}p={\frac {np}{n}}=p$ ，结论得证。

$\Box$

练习。 假设伯努利分布被替换为二项式分布，其具有 $n$ 次试验和成功概率 $p$ 。证明 ${\overline {X}}$ 是 $p$ 的有偏估计量。修改此估计量，使其成为 $p$ 的无偏估计量。

解

证明。 由于 $\mathbb {E} [{\overline {X}}]={\frac {1}{n}}\sum _{i=1}^{n}\mathbb {E} [X_{i}]={\frac {1}{n}}\sum _{i=1}^{n}np=np\neq p$ ， ${\overline {X}}$ 是 $p$ 的有偏估计量。

$\Box$

我们可以修改这个估计量为 ${\frac {\overline {X}}{n}}$ ，然后它的均值为 ${\frac {np}{n}}=p$ 。或者，我们可以选择估计量为 ${\frac {X_{i}}{n}}$ ( $i\in \{1,\dotsc ,n\}$ )，其均值也是 $p$ （其他均值为 $p$ 的估计量也可以）。

示例. 令 $X_{1},\dotsc ,X_{n}$ 是来自正态分布 ${\mathcal {N}}(\mu ,\sigma ^{2})$ 的随机样本。证明 $\mu$ 的最大似然估计量 ${\overline {X}}$ 是 $\mu$ 的无偏估计量，而 $\sigma ^{2}$ 的最大似然估计量 $S^{2}$ 是 $\sigma ^{2}$ 的渐进无偏估计量。

证明. 首先，由于 $\mathbb {E} [{\overline {X}}]={\frac {1}{n}}\sum _{i=1}^{n}\mathbb {E} [X_{i}]={\frac {1}{n}}\sum _{i=1}^{n}\mu =\mu$ ， ${\overline {X}}$ 是 $\mu$ 的无偏估计量。

On the other hand, ${\begin{aligned}\mathbb {E} [S^{2}]&={\frac {1}{n}}\sum _{i=1}^{n}\mathbb {E} \left[(X_{i}-{\overline {X}})^{2}\right]\\&={\frac {1}{n}}\sum _{i=1}^{n}\operatorname {Var} \left(X_{i}-{\overline {X}}\right)&{\text{since }}\mathbb {E} [X_{i}-{\overline {X}}]=\mathbb {E} [X_{i}]-\mathbb {E} [{\overline {X}}]=\mu -\mu =0\\&={\frac {1}{n}}\sum _{i=1}^{n}\operatorname {Var} \left(X_{i}-{\frac {X_{1}+\dotsb +X_{i-1}+X_{i}+\dotsb +X_{n}}{n}}\right)\\&={\frac {1}{n}}\sum _{i=1}^{n}\operatorname {Var} \left({\frac {{\color {blue}n}X_{i}}{n}}-{\frac {X_{1}+\dotsb +X_{i-1}+X_{i}+\dotsb +X_{n}}{n}}\right)\\&={\frac {1}{n}}\sum _{i=1}^{n}\operatorname {Var} \left({\frac {X_{1}+\dotsb +X_{i-1}+({\color {blue}n}-1)X_{i}+\dotsb +X_{n}}{n}}\right)\\&={\frac {1}{n}}\sum _{i=1}^{n}\operatorname {Var} \left({\frac {(n-1)X_{i}}{n}}+{\frac {X_{1}+\dotsb +X_{i-1}+X_{i+1}X_{n}}{n}}\right)\\&={\frac {1}{n}}\sum _{i=1}^{n}\left[\operatorname {Var} \left({\frac {(n-1)X_{i}}{n}}\right)+\operatorname {Var} \left({\frac {X_{1}+\dotsb +X_{i-1}+X_{i+1}+\dotsb +X_{n}}{n}}\right)\right]&{\text{by independence}}\\&={\frac {1}{n}}\sum _{i=1}^{n}\left[\operatorname {Var} \left({\frac {(n-1)X_{i}}{n}}\right)+\operatorname {Var} \left({\frac {X_{1}+\dotsb +X_{i-1}+X_{i+1}+\dotsb +X_{n}}{n}}\right)\right]\\&={\frac {1}{n}}\sum _{i=1}^{n}\left[{\frac {(n-1)^{2}}{n^{2}}}\sigma ^{2}+{\frac {1}{n^{2}}}\operatorname {Var} \left(X_{1}+\dotsb +X_{i-1}+X_{i+1}+\dotsb +X_{n}\right)\right]\\&={\frac {1}{n}}\sum _{i=1}^{n}\left[{\frac {(n-1)^{2}}{n^{2}}}\sigma ^{2}+{\frac {n-1}{n^{2}}}\sigma ^{2}\right]&{\text{by iid}}\\&={\frac {1}{n}}\sum _{i=1}^{n}\left[{\frac {\sigma ^{2}}{n^{2}}}(n^{2}-2n+1+n-1)\right]\\&={\frac {1}{n}}\sum _{i=1}^{n}\left[{\frac {(n^{2}-n)\sigma ^{2}}{n^{2}}}\right]\\&={\frac {1}{n}}\sum _{i=1}^{n}\left[{\frac {(n-1)\sigma ^{2}}{n}}\right]\\&={\frac {1}{n}}\cdot n\cdot {\frac {(n-1)\sigma ^{2}}{n}}\\&={\frac {n-1}{n}}\sigma ^{2}\\\end{aligned}}$ Thus, $\lim _{n\to \infty }\mathbb {E} [S^{2}]=\lim _{n\to \infty }\left({\frac {n-1}{n}}\sigma ^{2}\right)=\sigma ^{2}\lim _{n\to \infty }\left(1-{\frac {1}{n}}\right)=\sigma ^{2}\left(1-\lim _{n\to \infty }{\frac {1}{n}}\right)=\sigma ^{2}$ , as desired.

$\Box$

练习. 修改 $\sigma ^{2}$ 的估计量，使其成为无偏估计量。

解

估计量可以修改为 ${\frac {n}{n-1}}S^{2}={\frac {\sum _{i=1}^{n}(X_{i}-{\overline {X}})^{2}}{n-1}}$ .

效率

我们已经讨论了如何评估估计量的无偏性。现在，如果我们给定两个无偏估计量， ${\hat {\theta }}$ 和 ${\tilde {\theta }}$ ，我们应该如何比较它们的优劣？如果我们只是从无偏性的角度进行比较，那么它们的优劣相同。因此，在这种情况下我们需要另一个标准。一种可能的方法是比较它们的方差，方差较小的那个更好，因为平均而言，估计量与其均值之间的偏差更小，而其均值是根据无偏估计量的定义，未知参数的值，因此方差较小的那个在某种偏差意义上更准确。实际上，无偏估计量仍然可能具有很大的方差，从而导致其与其均值之间存在很大的偏差。这种估计量是无偏的，因为正偏差和负偏差在某种程度上相互抵消。这就是效率的概念。

定义。（效率）假设 ${\color {blue}{\hat {\theta }}}$ 和 ${\color {red}{\tilde {\theta }}}$ 是未知参数 $\theta$ 的两个无偏估计量。效率的 ${\color {blue}{\hat {\theta }}}$ 相对于 ${\color {red}{\tilde {\theta }}}$ 是 $\operatorname {Eff} ({\color {blue}{\hat {\theta }}},{\color {red}{\tilde {\theta }}})={\frac {\operatorname {Var} ({\color {red}{\tilde {\theta }}})}{\operatorname {Var} ({\color {blue}{\hat {\theta }}})}}$ 。如果 $\operatorname {Eff} ({\color {blue}{\hat {\theta }}},{\color {red}{\tilde {\theta }}})>1$ ，那么我们说 ${\color {blue}{\hat {\theta }}}$ 比 ${\color {red}{\tilde {\theta }}}$ 相对更有效。

备注。

由于 $\operatorname {Eff} ({\color {blue}{\hat {\theta }}},{\color {red}{\tilde {\theta }}})>1\Leftrightarrow \operatorname {Var} ({\color {blue}{\hat {\theta }}})<\operatorname {Var} ({\color {red}{\tilde {\theta }}})$ ，方差较小的估计量相对于方差较大的估计量更有效率。
通常情况下，方差应该是非零的，因此效率应该在正常情况下定义。
有时，由于效率描述的是 $\operatorname {Var} ({\color {red}{\tilde {\theta }}})$ 等于“多少” $\operatorname {Var} ({\color {blue}{\hat {\theta }}})$ ，它也被称为相对效率。
有人可能会问，为什么在比较方差时使用方差的比率来定义，而不是使用方差的差值？一个可能的原因是，方差的比率没有单位（方差的单位（如果存在）相互抵消），但方差的差值可能有单位。此外，使用方差的比率使我们能够以数值方式比较由不同方差计算的不同效率。

事实上，对于无偏估计量的方差，由于无偏估计量的均值为未知参数 $\theta$ ，它衡量了从 $\theta$ 的平方偏差的均值，我们对这种偏差有一个专门的术语，即 均方误差 (MSE)。

定义。 （均方误差）假设 ${\hat {\theta }}$ 是参数 $\theta$ 的估计量。 ${\hat {\theta }}$ 的均方误差 (MSE) 为 $\operatorname {MSE} ({\hat {\theta }})=\mathbb {E} [({\hat {\theta }}-\theta )^{2}]$ 。

备注。

从这个定义可以看出， $\operatorname {MSE} ({\hat {\theta }})$ 是误差 ${\hat {\theta }}-\theta$ 的平方的均值，因此得名 均方误差。

请注意，在 MSE 的定义中，我们没有规定 ${\hat {\theta }}$ 是无偏估计量。因此，定义中的 ${\hat {\theta }}$ 可能是存在偏差的。我们已经提到，当 ${\hat {\theta }}$ 是无偏的，它的方差实际上就是它的 MSE。接下来，我们将给出 $\operatorname {MSE} ({\hat {\theta }})$ 和 $\operatorname {Var} ({\hat {\theta }})$ 之间更一般的关系，而不局限于无偏估计量。

命题。 （均方误差与方差之间的关系）如果 $\operatorname {Var} ({\hat {\theta }})$ 存在，则 $\operatorname {MSE} ({\hat {\theta }})=\operatorname {Var} ({\hat {\theta }})+[\operatorname {Bias} ({\hat {\theta }})]^{2}$ .

Proof. By definition, we have $\operatorname {MSE} ({\hat {\theta }})=\mathbb {E} [({\hat {\theta }}-\theta )^{2}]$ and $\operatorname {Var} ({\hat {\theta }})=\mathbb {E} \left[({\hat {\theta }}-\mathbb {E} [{\hat {\theta }}])^{2}\right]$ . From these, we are motivated to write ${\begin{aligned}\operatorname {MSE} ({\hat {\theta }})&=\mathbb {E} [({\hat {\theta }}-\theta )^{2}]\\&=\mathbb {E} \left[{\big (}({\hat {\theta }}-{\color {darkgreen}\mathbb {E} [{\hat {\theta }}]})+({\color {darkgreen}\mathbb {E} [{\hat {\theta }}]}-\theta ){\big )}^{2}\right]\\&=\mathbb {E} [({\hat {\theta }}-{\color {darkgreen}\mathbb {E} [{\hat {\theta }}]})^{2}+2({\hat {\theta }}-{\color {darkgreen}\mathbb {E} [{\hat {\theta }}]})\underbrace {({\color {darkgreen}\mathbb {E} [{\hat {\theta }}]}-\theta )} _{\text{constant}}+({\color {darkgreen}\mathbb {E} [{\hat {\theta }}]}-\theta )^{2}]\\&=\operatorname {Var} ({\hat {\theta }})+2({\color {darkgreen}\mathbb {E} [{\hat {\theta }}]}-\theta )\underbrace {\mathbb {E} [{\hat {\theta }}-{\color {darkgreen}\mathbb {E} [{\hat {\theta }}]}]} _{=\mathbb {E} [{\hat {\theta }}]-{\color {darkgreen}\mathbb {E} [{\hat {\theta }}]}=0}+[\operatorname {Bias} ({\hat {\theta }})]^{2}\\&=\operatorname {Var} ({\hat {\theta }})+[\operatorname {Bias} ({\hat {\theta }})]^{2},\end{aligned}}$ as desired.

$\Box$

示例。 令 $X_{1},\dotsc ,X_{n}$ （ $n>1$ ）来自 ${\mathcal {N}}(\mu ,\sigma ^{2})$ 的一个随机样本。

(a) 证明单个观测估计量 $X_{1}$ 是 $\mu$ 的无偏估计量。

(b) 分别计算 $X_{1}$ 和 ${\overline {X}}$ 的 MSE。

(c) 从无偏性和效率的角度来看， $X_{1}$ 和 ${\overline {X}}$ 哪个是更好的 $\mu$ 估计量？

解:

(a) 由于 $\mathbb {E} [X_{1}]=\mu$ ，结果随之而来。

(b) $\operatorname {MSE} (X_{1})=\operatorname {Var} (X_{1})+0^{2}=\sigma ^{2}$ ，而 $\operatorname {MSE} ({\overline {X}})=\operatorname {Var} ({\overline {X}})={\frac {1}{n^{2}}}\sum _{i=1}^{n}\operatorname {Var} (X_{i})={\frac {n\sigma ^{2}}{n^{2}}}={\frac {\sigma ^{2}}{n}}$ .

(c) 由于 $\operatorname {MSE} ({\overline {X}})<\operatorname {MSE} (X_{1})\Leftrightarrow \operatorname {Var} ({\overline {X}})<\operatorname {Var} (X_{1})$ ， ${\overline {X}}$ 比 $X_{1}$ 更有效率。由于 $X_{1}$ 和 ${\overline {X}}$ 都是 $\mu$ 的无偏估计量，我们得出结论， ${\overline {X}}$ 是一个比 $X_{1}$ 更好的 $\mu$ 估计量，在无偏性和效率方面。

练习。 除了示例中样本量为 $n$ 的随机样本外，假设我们再抽取一个样本量为 $m$ 的随机样本。令 ${\overline {X}}^{(n)}$ 和 ${\overline {X}}^{(m)}$ 分别表示样本量为 $n$ 和 $m$ 的样本的样本均值。

(a) 计算 $\operatorname {Eff} \left({\overline {X}}^{(n)},{\overline {X}}^{(m)}\right)$ .

(b) 说明样本量 $m$ 和 $n$ 之间的条件，使得 ${\overline {X}}^{(m)}$ 比 ${\overline {X}}^{(n)}$ 相对更有效率。

解

(a) 由于 $\operatorname {Var} \left({\overline {X}}^{(n)}\right)={\frac {\sigma ^{2}}{n}}$ （来自示例），并且 $\operatorname {Var} \left({\overline {X}}^{(m)}\right)={\frac {\sigma ^{2}}{m}}$ （根据与示例类似的论点）， $\operatorname {Eff} \left({\overline {X}}^{(n)},{\overline {X}}^{(m)}\right)={\frac {\sigma ^{2}/m}{\sigma ^{2}/n}}={\frac {n}{m}}$ .

(b) 由于 ${\frac {n}{m}}>1\Leftrightarrow n>m$ ，条件是 $n>m$ .

备注。

这表明样本量较大的样本均值比样本量较小的样本均值相对更有效率。

命题。 $\lim _{n\to \infty }\operatorname {MSE} ({\hat {\theta }})=0$ 当且仅当 $\lim _{n\to \infty }\operatorname {Var} ({\hat {\theta }})=0$ 且 $\lim _{n\to \infty }\operatorname {Bias} ({\hat {\theta }})=0$ .

证明。

"如果" 部分很简单。假设 $\lim _{n\to \infty }\operatorname {Var} ({\hat {\theta }})=0$ 且 $\lim _{n\to \infty }\operatorname {Bias} ({\hat {\theta }})=0$ 。然后， $\lim _{n\to \infty }(\operatorname {Var} ({\hat {\theta }})+(\operatorname {Bias} ({\hat {\theta }}))^{2})=0\Rightarrow \lim _{n\to \infty }\operatorname {MSE} ({\hat {\theta }})=0$ .
"仅如果" 部分：我们可以使用逆否证明，即证明如果 $\lim _{n\to \infty }\operatorname {Var} ({\hat {\theta }})\neq 0$ 或者 $\lim _{n\to \infty }\operatorname {Bias} ({\hat {\theta }})=0$ ，则 $\lim _{n\to \infty }\operatorname {MSE} ({\hat {\theta }})\neq 0$ .

情况 1：当 $\lim _{n\to \infty }\operatorname {Var} ({\hat {\theta }})\neq 0$ 时，这意味着 $\lim _{n\to \infty }\operatorname {Var} ({\hat {\theta }})>0$ ，因为方差是非负的。此外， $\lim _{n\to \infty }(\operatorname {Bias} ({\hat {\theta }}))^{2}\geq 0$ 。因此， $\lim _{n\to \infty }\operatorname {MSE} ({\hat {\theta }})>0$ ，即 MSE 不等于零。
情况 2：当 $\lim _{n\to \infty }\operatorname {Bias} ({\hat {\theta }})\neq 0$ 时，这意味着 $\lim _{n\to \infty }(\operatorname {Bias} ({\hat {\theta }}))^{2}>0$ 。此外， $\lim _{n\to \infty }\operatorname {Var} ({\hat {\theta }})\geq 0$ 。因此， $\lim _{n\to \infty }\operatorname {MSE} ({\hat {\theta }})>0$ ，即 MSE 不等于零。

$\Box$

备注。

因此，如果我们知道 $\lim _{n\to \infty }\operatorname {MSE} ({\hat {\theta }})=0$ ，那么我们知道 $\lim _{n\to \infty }\operatorname {Bias} ({\hat {\theta }})=0$ ，即 ${\hat {\theta }}$ 是一个渐进无偏估计量（除了 $\lim _{n\to \infty }\operatorname {Var} ({\hat {\theta }})=0$ ) ( ${\hat {\theta }}$ 可能是一个无偏估计量）。

一致最小方差无偏估计量

现在，我们知道，无偏估计量的方差越小，它就越有效（越“好”。因此，很自然地，我们想知道什么是最有效的（即“最好”）无偏估计量，即方差最小的无偏估计量。对于这种无偏估计量，我们有一个专门的名称，即 一致最小方差无偏估计量（UMVUE） ^[6]。更准确地说，我们对 UMVUE 有如下定义

定义。（一致最小方差无偏估计量）一致最小方差无偏估计量（UMVUE）是在所有无偏估计量中方差最小的无偏估计量。

实际上，UMVUE 是 唯一的，即在所有无偏估计量中，只有一个无偏估计量的方差最小，我们将在下面对此进行证明。

命题。（UMVUE 的唯一性）如果 $W$ 是参数 $\tau (\theta )$ 的函数的 UMVUE，那么 $W$ 是唯一的。

证明。 假设 $W$ 是 $\tau (\theta )$ 的一个UMVUE，而 $W'$ 是 $\tau (\theta )$ 的另一个UMVUE。定义估计量 $W^{*}={\frac {1}{2}}(W+W')$ 。由于 $\mathbb {E} [W^{*}]={\frac {1}{2}}(\mathbb {E} [W]+\mathbb {E} [W'])={\frac {1}{2}}(\tau (\theta +\theta )=\tau (\theta )$ ， $W^{*}$ 是 $\tau (\theta )$ 的无偏估计量。

Now, we consider the variance of $W^{*}$ . ${\begin{aligned}\operatorname {Var} (W^{*})&={\frac {1}{4}}\operatorname {Var} (W+W')\\&={\frac {1}{4}}\left[\operatorname {Var} (W)+\operatorname {Var} (W')+2\operatorname {Cov} (W,W')\right]\\&\leq {\frac {1}{4}}\operatorname {Var} (W)+{\frac {1}{4}}\operatorname {Var} (W')+{\frac {1}{2}}{\sqrt {\operatorname {Var} (W)\operatorname {Var} (W')}}&({\text{covariance inequality}})\\&={\frac {1}{4}}\operatorname {Var} (W)+{\frac {1}{4}}\operatorname {Var} (W)+{\frac {1}{2}}{\sqrt {(\operatorname {Var} (W))^{2}}}&(\operatorname {Var} (W)=\operatorname {Var} (W'){\text{ since }}W{\text{ and }}W'{\text{ are both UMVUE}})\\&={\frac {1}{2}}\operatorname {Var} (W)+{\frac {1}{2}}\operatorname {Var} (W)&(\operatorname {Var} (W)>0)\\&=\operatorname {Var} (W).\end{aligned}}$ Thus, we now have either $\operatorname {Var} (W^{*})<\operatorname {Var} (W)$ or $\operatorname {Var} (W^{*})=\operatorname {Var} (W)$ . If the former is true, then $W$ is not an UMVUE of $\tau (\theta )$ by definition, since we can find another unbiased estimator, namely $W^{*}$ , with smaller variance than it. Hence, we must have the latter, i.e., $\operatorname {Var} (W^{*})=\operatorname {Var} (W).$ This implies when we apply the covariance inequality, the equality holds, i.e., $\operatorname {Cov} (W,W')={\sqrt {\operatorname {Var} (W)\operatorname {Var} (W')}}\iff \rho (W',W)=1,$ which means $W'$ is increasing linearly with $W$ , i.e., we can write $W'=aW+b$ for some constants $a>0$ and $b$ .

现在，我们考虑协方差 $\operatorname {Cov} (W,W')$ 。 $\operatorname {Cov} (W,W'){\overset {\text{ above }}{=}}\operatorname {Cov} (W,aW+b){\overset {\text{ properties }}{=}}a\operatorname {Cov} (W,W){\overset {\text{ property }}{=}}a\operatorname {Var} (W).$ 另一方面，由于协方差不等式中的等式成立，且 $\operatorname {Var} (W)=\operatorname {Var} (W')$ （因为它们都是UMVUE）， $\operatorname {Cov} (W,W')={\sqrt {\operatorname {Var} (W)\operatorname {Var} (W')}}={\sqrt {(\operatorname {Var} (W))^{2}}}=\operatorname {Var} (W).$ 因此，我们有 $a=1$ 。

剩下要证明的是 $b=0$ ，从而证明 $W=W'$ ，因此得出结论， $W$ 是唯一的。

从上面的分析中，我们目前有 $W'=W+b\implies \mathbb {E} [W']=\mathbb {E} [W]+b\implies \tau (\theta )=\tau (\theta )+b\implies b=0$ ，如预期。

$\Box$

备注。

因此，当我们能够找到一个UMVUE时，它就是唯一的，并且所有其他可能无偏估计量的方差严格大于UMVUE的方差。

克拉默-拉奥下界

如果不使用一些结果，确定UMVUE 非常困难，因为存在许多（甚至可能是无限多个）可能的无偏估计量，因此很难确保一个特定的无偏估计量比所有其他可能的无偏估计量更有效。

因此，我们将介绍一些帮助我们找到UMVUE 的方法。对于第一种方法，我们找到了一个下界 ^[7]，该下界限定了所有可能的无偏估计量的方差。在获得这样的下界后，如果我们能找到一个方差恰好等于下界的无偏估计量，那么该下界就是方差的最小值，因此根据定义，这样的无偏估计量就是UMVUE。

备注。

存在许多可能的较低界限，但当较低界限较大时，它更接近方差的实际最小值，因此“更好”。
即使无偏估计量的方差未达到较低界限，它仍然可以是UMVUE。

找到这样的下界限的一种常见方法是使用 克拉默-拉奥下界 (CRLB)，我们通过 克拉默-拉奥不等式 获得 CRLB。在陈述不等式之前，让我们定义一些相关的术语。

定义。（Fisher 信息）关于参数 $\theta$ 的 Fisher 信息，样本量为 $n$ 是 ${\mathcal {I}}_{n}(\theta )=\mathbb {E} \left[\left({\frac {\partial \ln {\mathcal {L}}({\boldsymbol {\theta }};\mathbf {X} )}{\partial \theta }}\right)^{2}\right]$ 其中 $\ln {\mathcal {L}}({\boldsymbol {\theta }};\mathbf {X} )=\ln {\mathcal {L}}({\boldsymbol {\theta }};X_{1},\dotsc ,X_{n})$ 是对数似然函数（作为一个随机变量）。

备注。

${\frac {\partial \ln {\mathcal {L}}({\boldsymbol {\theta }};\mathbf {X} )}{\partial \theta }}$ 被称为 评分函数，用 $S(\theta ;\mathbf {X} )$ 表示。
“ ${\boldsymbol {\theta }}$ ” 可能是一个参数向量，也可能不是。如果它只是一个单一参数（通常在这里是这种情况），那么它就与“ $\theta$ ” 相同。我们使用“ ${\boldsymbol {\theta }}$ ” 而不是“ $\theta$ ” 来强调“ $\theta$ ” 在 ${\mathcal {I}}_{n}(\theta )$ 和 $S(\theta ;\mathbf {X} )$ 中指的是“ $\theta$ ” 在“ ${\frac {\partial }{\partial \theta }}$ ” 中。
可以定义“关于参数向量的费舍尔信息”，但在这种情况下，费舍尔信息采取的是矩阵的形式，而不是一个单一的数字，被称为 费舍尔信息矩阵。然而，由于它比较复杂，我们在这里不讨论它。
由于得分函数的期望值为

$\mathbb {E} [S(\theta ;\mathbf {X} )]\mathbb {E} \left[{\frac {\partial \ln {\mathcal {L}}({\boldsymbol {\theta }};\mathbf {X} )}{\partial \theta }}\right]=\int _{-\infty }^{\infty }\dotsi \int _{-\infty }^{\infty }{\frac {\partial \ln {\mathcal {L}}({\boldsymbol {\theta }};\mathbf {x} )}{\partial \theta }}\cdot {\mathcal {L}}({\boldsymbol {\theta }};\mathbf {x} )\,dx_{n}\cdots \,dx_{1}=\int _{-\infty }^{\infty }\dotsi \int _{-\infty }^{\infty }{\frac {\frac {\partial {\mathcal {L}}({\boldsymbol {\theta }};\mathbf {x} )}{\partial \theta }}{{\mathcal {L}}({\boldsymbol {\theta }};\mathbf {x} )}}\cdot {\mathcal {L}}({\boldsymbol {\theta }};\mathbf {x} )\,dx_{n}\cdots \,dx_{1}=\int _{-\infty }^{\infty }\dotsi \int _{-\infty }^{\infty }{\frac {\partial {\mathcal {L}}({\boldsymbol {\theta }};\mathbf {x} )}{\partial \theta }}\,dx_{n}\cdots \,dx_{1},$

并且 在满足允许导数和积分交换的一些正则条件下，这等于

{\frac {\partial }{\partial \theta }}\int _{-\infty }^{\infty }\dotsi \int _{-\infty }^{\infty }{\mathcal {L}}({\boldsymbol {\theta }};\mathbf {x} )\,dx_{n}\cdots \,dx_{1}={\frac {\partial }{\partial \theta }}(1)=0

，关于

\theta

的费舍尔信息量也是得分函数的方差，即

\operatorname {Var} (S(\theta ;\mathbf {X} ))=\operatorname {Var} \left({\frac {\partial \ln {\mathcal {L}}({\boldsymbol {\theta }};\mathbf {X} )}{\partial \theta }}\right)

。

对于允许导数和积分交换的正则条件，它们包括

所涉及的偏导数应该存在，即所涉及函数的（自然对数）是可微的
所涉及的积分应该是可微的
支持不依赖于所涉及的参数

我们有一些结果可以帮助我们计算费舍尔信息量。

命题。 令 $X_{1},\dotsc ,X_{n}$ 为来自具有 pdf 或 pmf $f$ 的分布的随机样本。此外，令 ${\mathcal {I}}(\theta )=\mathbb {E} \left[\left({\frac {\partial \ln f(X;{\boldsymbol {\theta }})}{\partial \theta }}\right)^{2}\right]$ ，关于 $\theta$ 的样本量为一的费舍尔信息。然后，在允许导数和积分交换的一些正则条件下， ${\mathcal {I}}_{n}(\theta )=n{\mathcal {I}}(\theta )$ .

证明。 $\Box$

命题。 在一些允许导数和积分交换的正则条件下， ${\mathcal {I}}(\theta )=-\mathbb {E} \left[{\frac {\partial ^{2}\ln f(X;{\boldsymbol {\theta }})}{\partial \theta ^{2}}}\right]$ .

Proof. ${\begin{aligned}\mathbb {E} \left[{\frac {\partial ^{2}\ln f(X;{\boldsymbol {\theta }})}{\partial \theta ^{2}}}\right]&=\mathbb {E} \left[{\frac {\partial }{\partial \theta }}\left({\frac {\partial \ln f(X;{\boldsymbol {\theta }})}{\partial \theta }}\right)\right]\\&=\mathbb {E} \left[{\frac {\partial }{\partial \theta }}\left({\frac {1}{f(X;{\boldsymbol {\theta }})}}\cdot {\frac {\partial f(X;{\boldsymbol {\theta }})}{\partial \theta }}\right)\right]\\&=\mathbb {E} \left[{\frac {1}{f(X;{\boldsymbol {\theta }})}}\cdot {\frac {\partial ^{2}f(X;{\boldsymbol {\theta }})}{\partial \theta ^{2}}}-{\frac {\partial f(X;{\boldsymbol {\theta }})}{\partial \theta }}\cdot {\frac {1}{(f(X;{\boldsymbol {\theta }}))^{2}}}\cdot {\frac {\partial f(X;{\boldsymbol {\theta }})}{\partial \theta }}\right]\\&=\mathbb {E} \left[{\frac {1}{f(X;{\boldsymbol {\theta }})}}\cdot {\frac {\partial ^{2}f(X;{\boldsymbol {\theta }})}{\partial \theta ^{2}}}-\left({\frac {\partial f(X;{\boldsymbol {\theta }})}{\partial \theta }}\right)^{2}\cdot {\frac {1}{(f(X;{\boldsymbol {\theta }}))^{2}}}\right]\\&=\mathbb {E} \left[{\frac {1}{f(X;{\boldsymbol {\theta }})}}\cdot {\frac {\partial ^{2}f(X;{\boldsymbol {\theta }})}{\partial \theta ^{2}}}\right]-\mathbb {E} \left[\left({\frac {\partial \ln f(X;{\boldsymbol {\theta }})}{\partial \theta }}\right)^{2}\right]\\&=\mathbb {E} \left[{\frac {1}{f(X;{\boldsymbol {\theta }})}}\cdot {\frac {\partial ^{2}f(X;{\boldsymbol {\theta }})}{\partial \theta ^{2}}}\right]-{\mathcal {I}}(\theta )\\\end{aligned}}$ Now, it suffices to prove that $\mathbb {E} \left[{\frac {1}{f(X;{\boldsymbol {\theta }})}}\cdot {\frac {\partial ^{2}f(X;{\boldsymbol {\theta }})}{\partial \theta ^{2}}}\right]=0$ , which is true since ${\begin{aligned}\mathbb {E} \left[{\frac {1}{f(X;{\boldsymbol {\theta }})}}\cdot {\frac {\partial ^{2}f(X;{\boldsymbol {\theta }})}{\partial \theta ^{2}}}\right]&=\int _{-\infty }^{\infty }{\frac {1}{f(x;{\boldsymbol {\theta }})}}\cdot {\frac {\partial ^{2}f(x;{\boldsymbol {\theta }})}{\partial \theta ^{2}}}\cdot f(x;{\boldsymbol {\theta }})\,dx\\&=\int _{-\infty }^{\infty }{\frac {\partial ^{2}f(x;{\boldsymbol {\theta }})}{\partial \theta ^{2}}}\,dx\\&={\frac {\partial ^{2}}{\partial \theta ^{2}}}\int _{-\infty }^{\infty }f(x;{\boldsymbol {\theta }})\,dx\\&={\frac {\partial ^{2}}{\partial \theta ^{2}}}(1)\\&=0.\\\end{aligned}}$

$\Box$

备注。

这个命题非常有用，因为在对 $\ln f(X;{\boldsymbol {\theta }})$ 进行偏微分后，许多 $X$ 会消失，因此计算期望将变得更容易。

定理。 (克拉美-拉奥不等式) 令 $X_{1},\dotsc ,X_{n}$ 是来自某个分布的随机样本，令 $W$ 是 $\tau (\theta )$ ( $\theta$ 的函数) 的无偏估计量。然后，在一些允许导数与积分互换的正则性条件下， $\operatorname {Var} (W)\geq {\frac {(\tau '(\theta ))^{2}}{{\mathcal {I}}_{n}(\theta )}}$ 。

Proof. Since $W$ is an unbiased estimator of $\tau (\theta )$ , we have by definition $\mathbb {E} [W]=\tau (\theta )$ . By definition of expectation, we have $\mathbb {E} [W]=\int _{-\infty }^{\infty }\dotsi \int _{-\infty }^{\infty }w{\mathcal {L}}(\theta ;\mathbf {x} )\,dx_{n}\cdots \,dx_{1}$ where ${\mathcal {L}}(\theta ;\mathbf {x} )$ is the likelihood function. Thus, ${\begin{aligned}&&\int _{-\infty }^{\infty }\dotsi \int _{-\infty }^{\infty }w{\mathcal {L}}(\theta ;\mathbf {x} )\,dx_{n}\cdots \,dx_{1}&=\tau (\theta )\\&\Rightarrow &{\frac {\partial }{\partial \theta }}\int _{-\infty }^{\infty }\dotsi \int _{-\infty }^{\infty }w{\mathcal {L}}(\theta ;\mathbf {x} )\,dx_{n}\cdots \,dx_{1}&={\frac {\partial }{\partial \theta }}\tau (\theta )\\&\Rightarrow &\int _{-\infty }^{\infty }\dotsi \int _{-\infty }^{\infty }{\frac {\partial }{\partial \theta }}\left(w{\mathcal {L}}(\theta ;\mathbf {x} )\right)\,dx_{n}\cdots \,dx_{1}&=\tau '(\theta )\\&\Rightarrow &\int _{-\infty }^{\infty }\dotsi \int _{-\infty }^{\infty }w{\frac {\partial }{\partial \theta }}\left({\mathcal {L}}(\theta ;\mathbf {x} )\right)\cdot {\frac {1}{{\mathcal {L}}(\theta ;\mathbf {x} )}}\cdot {\mathcal {L}}(\theta ;\mathbf {x} )\,dx_{n}\cdots \,dx_{1}&=\tau '(\theta )\\&\Rightarrow &\int _{-\infty }^{\infty }\dotsi \int _{-\infty }^{\infty }w{\frac {\partial \ln {\mathcal {L}}(\theta ;\mathbf {x} )}{\partial \theta }}{\mathcal {L}}(\theta ;\mathbf {x} )\,dx_{n}\cdots \,dx_{1}&=\tau '(\theta )\\&\Rightarrow &\mathbb {E} \left[W\cdot {\frac {\partial \ln {\mathcal {L}}(\theta ;\mathbf {x} )}{\partial \theta }}\right]&=\tau '(\theta )\\&\Rightarrow &\mathbb {E} \left[WS(\theta ;\mathbf {X} )\right]&=\tau '(\theta )&\left(S(\theta ;\mathbf {X} )={\frac {\partial \ln {\mathcal {L}}(\theta ;\mathbf {x} )}{\partial \theta }}\right)\\&\Rightarrow &\mathbb {E} \left[WS(\theta ;\mathbf {X} )\right]-\mathbb {E} [W]\underbrace {\mathbb {E} [S(\theta ;\mathbf {X} )]} _{=0}&=\tau '(\theta )&(\mathbb {E} [S(\theta ;\mathbf {X} )]=0{\text{ by remark about Fisher information}})\\&\Rightarrow &\operatorname {Cov} (W,S(\theta ;\mathbf {X} ))&=\tau '(\theta )\\\end{aligned}}$ Consider the covariance inequality: $(\operatorname {Cov} (X,Y))^{2}\leq \operatorname {Var} (X)\operatorname {Var} (Y)$ . We have ${\big (}\operatorname {Cov} (W,S(\theta ;\mathbf {X} )){\big )}^{2}\leq \operatorname {Var} (W)\operatorname {Var} (S(\theta ;\mathbf {X} ))\implies (\tau '(\theta ))^{2}\leq \operatorname {Var} (W)\operatorname {Var} (S(\theta ;\mathbf {X} ))\implies \operatorname {Var} (W)\geq {\frac {(\tau '(\theta ))^{2}}{\operatorname {Var} (S(\theta ;\mathbf {X} ))}}={\frac {(\tau '(\theta ))^{2}}{{\mathcal {I}}_{n}(\theta )}}.$ ( ${\mathcal {I}}_{n}(\theta )=\operatorname {Var} (S(\theta ;\mathbf {X} ))$ by remark about Fisher information)

$\Box$

备注。

${\frac {(\tau '(\theta ))^{2}}{{\mathcal {I}}_{n}(\theta )}}$ 称为 克拉美-拉奥下界 (CRLB)。
当 $\tau (\theta )=\theta$ 时，这意味着 $W$ 是 $\theta$ 的无偏估计量，因为 $(\tau '(\theta ))^{2}=1^{2}=1$ ，CRLB 变为 ${\frac {1}{{\mathcal {I}}_{n}(\theta )}}$ 。

示例。 令 $X_{1},\dotsc ,X_{n}$ 是来自正态分布 ${\mathcal {N}}(\mu ,\sigma ^{2})$ 的一个随机样本。证明 $\mu$ 的最大似然估计 (MLE)， ${\overline {X}}$ ，是 $\mu$ 的一致最小方差无偏估计 (UMVUE)。

证明。 首先，我们可以看到在这种情况下满足正则性条件。因此，我们可以考虑 $\mu$ 的克拉美-拉奥下界 (CRLB) 如下。由于 $\ln f(X;\mu ,\sigma ^{2})=\ln {\frac {1}{\sqrt {2\pi \sigma ^{2}}}}\exp \left(-{\frac {(X-\mu )^{2}}{2\sigma ^{2}}}\right)=-{\frac {1}{2}}(\ln 2\pi \sigma ^{2})-{\frac {(X-\mu )^{2}}{2\sigma ^{2}}}=-{\frac {1}{2}}(\ln 2\pi \sigma ^{2})-{\frac {X^{2}-2\mu X+\mu ^{2}}{2\sigma ^{2}}},$ 我们有 ${\mathcal {I}}(\mu )=-\mathbb {E} \left[{\frac {\partial ^{2}}{\partial \mu ^{2}}}\left(-{\frac {1}{2}}(\ln 2\pi \sigma ^{2})-{\frac {X^{2}-2\mu X+\mu ^{2}}{2\sigma ^{2}}}\right)\right]=-\mathbb {E} \left[{\frac {\partial }{\partial \mu }}\left(-{\frac {-2X+2\mu }{2\sigma ^{2}}}\right)\right]=-\mathbb {E} \left[-\left({\frac {2}{2\sigma ^{2}}}\right)\right]=-\mathbb {E} [\underbrace {-{\frac {1}{\sigma ^{2}}}} _{{\text{constant wrt }}X}]={\frac {1}{\sigma ^{2}}}.$ 因此， $\mu$ 的 CRLB 为 ${\frac {1}{n{\mathcal {I}}(\mu )}}={\frac {1}{n(1/\sigma ^{2})}}={\frac {\sigma ^{2}}{n}}$ .

另一方面， ${\overline {X}}$ 的方差为 $\operatorname {Var} ({\overline {X}})={\frac {\sigma ^{2}}{n}}$ （在之前的例子中已经证明），它等于 $\mu$ 的 CRLB。因此， ${\overline {X}}$ 是 $\mu$ 的 UMVUE。

$\Box$

练习。 一位学生声称 ${\frac {X_{1}}{\sqrt {n}}}$ 是 $\mu$ 的另一个 UMVUE，因为 $\operatorname {Var} \left({\frac {X_{1}}{\sqrt {n}}}\right)={\frac {\sigma ^{2}}{({\sqrt {n}})^{2}}}={\frac {\sigma ^{2}}{n}}$ ，它也等于 $\mu$ 的 CRLB。这个说法正确吗？为什么？

解

请记住，UMVUE 是一个 无偏估计量。

这个说法是错误的，因为 ${\frac {X_{1}}{\sqrt {n}}}$ 通常情况下不是无偏估计量。这是因为 $\mathbb {E} \left[{\frac {X_{1}}{\sqrt {n}}}\right]={\frac {\mu }{\sqrt {n}}}\neq \mu$ ，除非 $n=1$ 。但是如果 $n=1$ ，那么这个估计量就简化为 $X_{1}$ ，它与 ${\overline {X}}={\frac {X_{1}}{1}}=X_{1}$ 完全相同。因此，在这个情况下，这个估计量并不是 另一个 UMVUE。

有时，我们不能使用 CRLB 方法来寻找 UMVUE，因为

正则条件可能不满足，因此我们不能使用克拉美-拉奥不等式，以及
无偏估计量的方差可能不等于 CRLB，但我们不能断定它不是 UMVUE，因为可能是 CRLB 本身就不可达，而所有无偏估计量中最小方差实际上是该估计量的方差，它大于 CRLB。

我们将在下面说明这两种情况的一些例子。

例：设 $X_{1},\dotsc ,X_{n}$ 是从均匀分布 ${\mathcal {U}}[0,\beta ]$ 中抽取的随机样本。如果我们想找到 $\beta$ 的UMVUE，我们不能使用Cramer-Rao不等式来找到它，因为支撑 $[0,\beta ]$ 取决于参数 $\beta$ 。

例：设 $X_{1},\dotsc ,X_{n}$ 是从正态分布 ${\mathcal {N}}(\mu ,\sigma ^{2})$ 中抽取的随机样本。已知在这种情况下， ${\frac {nS^{2}}{\sigma ^{2}}}\sim \chi _{n-1}^{2}$ ，其中 $\chi _{k}^{2}$ 是自由度为 $k$ 的卡方分布，其方差为 $2k$ 。计算 $\operatorname {Var} \left({\frac {n}{n-1}}\cdot S^{2}\right)$ 和 $\sigma ^{2}$ 的CRLB。

解：根据给定信息，我们有 $\operatorname {Var} \left({\frac {nS^{2}}{\sigma ^{2}}}\right)=2(n-1)\implies {\frac {n^{2}}{\sigma ^{4}}}\operatorname {Var} (S^{2})=2(n-1)\implies \operatorname {Var} (S^{2})={\frac {2(n-1)\sigma ^{4}}{n^{2}}}.$ 因此， $\operatorname {Var} \left({\frac {n}{n-1}}\cdot S^{2}\right)={\frac {n^{2}}{(n-1)^{2}}}\cdot {\frac {2(n-1)\sigma ^{4}}{n^{2}}}={\frac {2\sigma ^{4}}{n-1}}$ 。

另一方面，由于 ${\begin{aligned}{\mathcal {I}}(\theta )&=-\mathbb {E} \left[{\frac {\partial ^{2}}{\partial (\sigma )^{2}}}\left(-{\frac {1}{2}}(\ln 2\pi \sigma ^{2})-{\frac {(X-\mu )^{2}}{2\sigma ^{2}}}\right)\right]\\&=-\mathbb {E} \left[{\frac {\partial }{\partial \sigma }}\left(-{\frac {4\pi \sigma }{2(2\pi \sigma ^{2}}}+{\frac {(X-\mu )^{2}}{\sigma ^{3}}}\right)\right]\\&=-\mathbb {E} \left[{\frac {\partial }{\partial \sigma }}\left(-{\frac {1}{\sigma }}+{\frac {(X-\mu )^{2}}{\sigma ^{3}}}\right)\right]\\&=-\mathbb {E} \left[{\frac {1}{\sigma ^{2}}}-{\frac {3(X-\mu )^{2}}{\sigma ^{4}}}\right]\\&=-{\frac {1}{\sigma ^{2}}}+{\frac {3}{\sigma ^{4}}}\mathbb {E} [(X-\mu )^{2}]\\&=-{\frac {1}{\sigma ^{2}}}+{\frac {3}{\sigma ^{4}}}\cdot \sigma ^{2}\\&={\frac {2}{\sigma ^{2}}},\\\end{aligned}}$ 以及 $\left({\frac {d}{d\sigma }}\sigma ^{2}\right)^{2}=(2\sigma )^{2}=4\sigma ^{2}$ ， $\sigma ^{2}$ 的 CRLB 是 ${\frac {4\sigma ^{2}}{2n/\sigma ^{2}}}={\frac {2\sigma ^{4}}{n}}.$

备注。

${\frac {n}{n-1}}\cdot S^{2}$ 是 $\sigma ^{2}$ 的无偏估计量，因为 $\mathbb {E} \left[{\frac {n}{n-1}}\cdot S^{2}\right]={\frac {n}{n-1}}\left({\frac {n-1}{n}}\sigma ^{2}\right)=\sigma ^{2}$ .
我们可以观察到 $\operatorname {Var} \left({\frac {n}{n-1}}\cdot S^{2}\right)$ 大于 CRLB。但这是否意味着 ${\frac {n}{n-1}}\cdot S^{2}$ 不是 $\sigma ^{2}$ 的 UMVUE？我们不知道，因为我们不确定是否存在另一个方差小于 $\operatorname {Var} \left({\frac {n}{n-1}}\cdot S^{2}\right)$ 的无偏估计量，而且 CRLB 可能无法实现。

由于 CRLB 有时可以实现，有时又无法实现，因此很自然地会问何时可以实现 CRLB。换句话说，我们想知道 CRLB 的 实现条件，这些条件在以下推论中给出。

推论。 (CRLB 的实现条件) 令 $X_{1},\dotsc ,X_{n}$ 是来自某个分布的随机样本，并且令 $W$ 是 $\tau (\theta )$ 的无偏估计量。假设 Cramer-Rao 不等式中的正则条件成立。那么，CRLB 可以实现，即存在某个 $W$ 使得 $\operatorname {Var} (W)={\frac {(\tau '(\theta ))^{2}}{{\mathcal {I}}_{n}(\theta )}}$ ，当且仅当 $k(W-\tau (\theta ))=S(\theta ;\mathbf {X} )$ ，其中 $S(\theta ;\mathbf {X} )={\frac {\partial \ln {\mathcal {L}}(\theta ;\mathbf {X} )}{\partial \theta }}$ 是得分函数，并且 $k$ 是一个常数。

Proof. Considering the proof for Cramer-Rao inequality, we have $\operatorname {Var} (W)={\frac {(\tau '(\theta ))^{2}}{{\mathcal {I}}_{n}(\theta )}}\iff (\operatorname {Cov} (W,S(\theta ;\mathbf {X} )))^{2}=\operatorname {Var} (W)\operatorname {Var} (S(\theta ;\mathbf {X} ))$ We can write $\operatorname {Cov} (W,S(\theta ;\mathbf {X} ))$ as $\operatorname {Cov} (W-\underbrace {\tau (\theta )} _{\text{constant}},S(\theta ;\mathbf {X} ))$ (by result about covariance). Also, $\operatorname {Var} (W)=\operatorname {Var} (W-\underbrace {\tau (\theta )} _{\text{constant}})$ (by result about variance). Thus, we have ${\begin{aligned}&&{\big (}\operatorname {Cov} (W-\tau (\theta ),S(\theta ;\mathbf {X} )){\big )}^{2}&=\operatorname {Var} (W-\tau (\theta ))\operatorname {Var} (S(\theta ;\mathbf {X} ))\\&\Leftrightarrow &{\frac {{\big (}\operatorname {Cov} (W-\tau (\theta ),S(\theta ;\mathbf {X} )){\big )}^{2}}{\operatorname {Var} (W-\tau (\theta ))\operatorname {Var} (S(\theta ;\mathbf {X} ))}}&=1\\&\Leftrightarrow &{\frac {{\big (}\operatorname {Cov} (S(\theta ;\mathbf {X} ),W-\tau (\theta )){\big )}^{2}}{\operatorname {Var} (W-\tau (\theta ))\operatorname {Var} (S(\theta ;\mathbf {X} ))}}&=1\\&\Leftrightarrow &{\big (}\rho (S(\theta ;\mathbf {X} ),W-\tau (\theta )){\big )}^{2}&=1\\&\Leftrightarrow &\rho (S(\theta ;\mathbf {X} ),W-\tau (\theta ))&=\pm 1\end{aligned}}$ where $\rho (\cdot ,\cdot )$ is the correlation coefficient between two random variables. This means $S(\theta ;\mathbf {X} )$ increases or decreases linearly with $W-\tau (\theta )$ , i.e., $S(\theta ;\mathbf {X} )=k(W-\tau (\theta ))+c$ for some constants $c,k$ . Now, it suffices to show that the constant $c$ is actually zero.

我们知道 $\mathbb {E} [W]=\tau (\theta )$ （因为 $W$ 是 $\tau (\theta )$ 的无偏估计），并且 $\mathbb {E} [S(\theta ;\mathbf {X} )]=0$ （根据Fisher 信息的注释）。因此，对两边取期望得到 $\mathbb {E} [S(\theta ;\mathbf {X} )]=k\mathbb {E} [W-\tau (\theta )]+c\iff \mathbb {E} [S(\theta ;\mathbf {X} )]=k(\underbrace {\mathbb {E} [W]-\tau (\theta )} _{=0})+c\iff 0=0+c\iff c=0.$ 然后，结果就出来了。

$\Box$

备注。

考虑到证明过程，我们知道，如果满足这种可达条件，无偏估计量 $W$ 的方差等于 $\tau (\theta )$ 的CRLB，也就是说，该估计量是 $\tau (\theta )$ 的UMVUE。

示例。 我们已经证明，从正态分布 ${\mathcal {N}}(\mu ,\sigma ^{2})$ 中抽取的随机样本 $X_{1},\dotsc ,X_{n}$ 的对数似然函数为 $\ln {\mathcal {L}}(\mu ,\sigma ^{2})=-{\frac {n}{2}}\ln(2\pi \sigma ^{2})-\sum _{i=1}^{n}{\frac {(x_{i}-\mu )^{2}}{2\sigma ^{2}}}$ 。证明 $\mu$ 的CRLB可以使用CRLB的可达条件。

证明。 分数函数为 $S(\mu )={\frac {\partial \ln {\mathcal {L}}(\mu ,\sigma ^{2})}{\partial \mu }}={\frac {\partial }{\partial \mu }}\left(-{\frac {n}{2}}\ln(2\pi \sigma ^{2})-\sum _{i=1}^{n}{\frac {({\color {darkgreen}X}_{i}-\mu )^{2}}{2\sigma ^{2}}}\right)=-\sum _{i=1}^{n}{\frac {-2{\color {darkgreen}X}_{i}+2\mu }{2\sigma ^{2}}}=\sum _{i=1}^{n}{\frac {{\color {darkgreen}X}_{i}-\mu }{\sigma ^{2}}}={\frac {1}{\sigma ^{2}}}\left(\sum _{i=1}^{n}X_{i}-\sum _{i=1}^{n}\mu \right)={\frac {n}{\sigma ^{2}}}({\overline {X}}-\mu ).$ 由于我们有 $\tau (\mu )=\mu$ 和 ${\hat {\mu }}={\overline {X}}$ （这是 $\mu$ 的无偏估计量），CRLB 的可达性条件满足（在这种情况下，常数 " $k$ " 是 ${\frac {n}{\sigma ^{2}}}$ ），因此 $\mu$ 的 CRLB 是可达的。

$\Box$

备注。

事实上，我们知道 $\mu$ 的 CRLB 在此证明之前是可达的，因为我们已经找到了 $\mu$ 的无偏估计量，即 ${\overline {X}}$ ，其方差正好等于之前计算的 CRLB。

例子。 继续从之前的例子开始。证明 $\sigma ^{2}$ 的 CRLB 使用 CRLB 的可达性条件无法达成。

证明： 此情况下的得分函数为 $S(\sigma )={\frac {\partial \ln {\mathcal {L}}(\mu ,\sigma ^{2})}{\partial \sigma }}={\frac {\partial }{\partial \sigma }}\left(-{\frac {n}{2}}\ln(2\pi \sigma ^{2})-\sum _{i=1}^{n}{\frac {({\color {darkgreen}X}_{i}-\mu )^{2}}{2\sigma ^{2}}}\right)=-{\frac {n}{2}}{\frac {4\pi \sigma }{2\pi \sigma ^{2}}}+{\frac {2}{2\sigma ^{3}}}\sum _{i=1}^{n}({\color {darkgreen}X_{i}}-\mu )^{2}=-{\frac {n}{\sigma }}+{\frac {1}{\sigma ^{3}}}\sum _{i=1}^{n}({\color {darkgreen}X_{i}}-\mu )^{2}=\underbrace {\frac {n}{\sigma ^{3}}} _{\text{constant}}\left(\sum _{i=1}^{n}{\frac {({\color {darkgreen}X_{i}}-\mu )^{2}}{n}}-\sigma ^{2}\right).$ 取常数 $k={\frac {n}{\sigma ^{3}}}$ ，则达到CRLB的无偏估计量 ${\hat {\sigma }}$ 的潜在候选值为 $\sum _{i=1}^{n}{\frac {({\color {darkgreen}X_{i}}-\mu )^{2}}{n}}$ 。然而，我们注意到 $\sum _{i=1}^{n}{\frac {({\color {darkgreen}X_{i}}-\mu )^{2}}{n}}$ 无法计算，因为 $\mu$ 是未知的。因此，不存在某个 $W$ 使得 $S(\sigma )=k(W-\tau (\sigma ))$ ，其中 $k$ 是某个常数，且 $\tau (\sigma )=\sigma ^{2}$ 。

$\Box$

备注。

即使我们知道 $\sigma ^{2}$ 的 CRLB 不可达，我们仍然不知道 ${\frac {n}{n-1}}\cdot S^{2}$ 是否是 UMVUE，因为可能存在方差更小（但没有达到 CRLB）的无偏估计量。

我们之前讨论过 MLE，实际上，根据以下定理，MLE 是渐近意义上的“最佳选择”（即当样本量 $n\to \infty$ 时）。

定理。 假设 ${\hat {\theta }}$ 是一个分布中未知参数 $\theta$ 的 MLE。那么，在一些正则条件下，当 $n\to \infty$ 时， ${\frac {{\hat {\theta }}-\theta }{\sqrt {1/{\mathcal {I}}_{n}(\theta )}}}\;{\overset {d}{\to }}\;{\mathcal {N}}(0,1).$

Proof. Partial proof: we consider the Taylor series of order 2 for ${\frac {d}{d\theta }}\ln {\mathcal {L}}(\theta )$ , and we will get ${\frac {d}{d\theta }}\ln {\mathcal {L}}({\hat {\theta }})={\frac {d}{d\theta }}\ln {\mathcal {L}}(\theta )+({\hat {\theta }}-\theta ){\frac {d^{2}}{d\theta ^{2}}}\ln {\mathcal {L}}(\theta )+{\frac {1}{2}}({\hat {\theta }}-\theta )^{2}{\frac {d^{3}}{d\theta ^{3}}}\ln {\mathcal {L}}(\theta ){\bigg \vert }_{\theta =\theta ^{*}}$ where $\theta ^{*}$ is between $\theta$ and ${\hat {\theta }}$ . Since ${\hat {\theta }}$ is the MLE of $\theta$ , from the derivative test, we know that ${\frac {d}{d\theta }}\ln {\mathcal {L}}({\hat {\theta }})=0$ (we apply regularity condition to ensure the existence of this derivative). Hence, we have ${\begin{aligned}&&{\frac {d}{d\theta }}\ln {\mathcal {L}}(\theta )+({\hat {\theta }}-\theta ){\frac {d^{2}}{d\theta ^{2}}}\ln {\mathcal {L}}(\theta )+{\frac {1}{2}}({\hat {\theta }}-\theta )^{2}{\frac {d^{3}}{d\theta ^{3}}}\ln {\mathcal {L}}(\theta ){\bigg \vert }_{\theta =\theta ^{*}}&=0\\&\Rightarrow &-{\sqrt {n}}({\hat {\theta }}-\theta ){\frac {d^{2}}{d\theta ^{2}}}\ln {\mathcal {L}}(\theta )-{\frac {\sqrt {n}}{2}}({\hat {\theta }}-\theta )^{2}{\frac {d^{3}}{d\theta ^{3}}}\ln {\mathcal {L}}(\theta ){\bigg \vert }_{\theta =\theta ^{*}}={\sqrt {n}}{\frac {d}{d\theta }}\ln {\mathcal {L}}(\theta )\\&\Rightarrow &{\sqrt {n}}({\hat {\theta }}-\theta )={\frac {{\frac {d}{d\theta }}\ln {\mathcal {L}}(\theta )/{\sqrt {n}}}{-n^{-1}{\frac {d^{2}}{d\theta ^{2}}}\ln {\mathcal {L}}(\theta )-(2n)^{-1}({\hat {\theta }}-\theta ){\frac {d^{3}}{d\theta ^{3}}}\ln {\mathcal {L}}(\theta ){\bigg \vert }_{\theta =\theta ^{*}}}}.\end{aligned}}$ Since $\operatorname {Var} \left(\sum _{i=1}^{n}{\frac {\partial \ln f(X_{i};\theta )}{\partial \theta }}\right)=\sum _{i=1}^{n}\operatorname {Var} \left({\frac {\partial \ln f(X_{i};\theta )}{\partial \theta }}\right)=\sum _{i=1}^{n}\mathbb {E} \left[\left({\frac {\partial \ln f(X_{i};\theta )}{\partial \theta }}\right)^{2}\right]=n{\mathcal {I}}(\theta )\qquad (1),$ by central limit theorem, ${\frac {{\frac {d}{d\theta }}\ln {\mathcal {L}}(\theta )}{\sqrt {n}}}={\frac {1}{\sqrt {n}}}\sum _{i=1}^{n}{\frac {\partial \ln f(X_{i};\theta )}{\partial \theta }}\;{\overset {d}{\to }}\;{\mathcal {N}}(0,(1/n)nI(\theta ))\equiv {\mathcal {N}}(0,{\mathcal {I}}(\theta )).$ Furthermore, we apply the weak law of large number to show that $-n^{-1}{\frac {d^{2}}{d\theta ^{2}}}\ln {\mathcal {L}}(\theta )=-{\frac {1}{n}}\sum _{i=1}^{n}{\frac {\partial ^{2}\ln f(X_{i};\theta )}{\partial \theta ^{2}}}\;{\overset {p}{\to }}\;-\mathbb {E} \left[{\frac {\partial ^{2}\ln f(X_{i};\theta )}{\partial \theta ^{2}}}\right]={\mathcal {I}}(\theta )\qquad (2).$ It can be shown in a quite complicated way (and using regularity conditions) that $-(2n)^{-1}({\hat {\theta }}-\theta ){\frac {d^{3}}{d\theta ^{3}}}\ln {\mathcal {L}}(\theta ){\bigg \vert }_{\theta =\theta ^{*}}\;{\overset {p}{\to }}\;0.\qquad (3).$ Considering $(2)$ and $(3)$ , using property of convergence in probability, we have $-n^{-1}{\frac {d^{2}}{d\theta ^{2}}}\ln {\mathcal {L}}(\theta )-(2n)^{-1}({\hat {\theta }}-\theta ){\frac {d^{3}}{d\theta ^{3}}}\ln {\mathcal {L}}(\theta ){\bigg \vert }_{\theta =\theta ^{*}}\;{\overset {p}{\to }}\;{\mathcal {I}}(\theta )+0={\mathcal {I}}(\theta )\qquad (4).$ Considering $(1)$ and $(4)$ , and using Slutsky's theorem, we have ${\sqrt {n}}({\hat {\theta }}-\theta )={\frac {{\frac {d}{d\theta }}\ln {\mathcal {L}}(\theta )/{\sqrt {n}}}{-n^{-1}{\frac {d^{2}}{d\theta ^{2}}}\ln {\mathcal {L}}(\theta )-(2n)^{-1}({\hat {\theta }}-\theta ){\frac {d^{3}}{d\theta ^{3}}}\ln {\mathcal {L}}(\theta ){\bigg \vert }_{\theta =\theta ^{*}}}}\;{\overset {d}{\to }}\;{\frac {Y}{{\mathcal {I}}(\theta )}}$ where $Y\sim {\mathcal {N}}(0,{\mathcal {I}}(\theta ))$ , and hence ${\frac {Y}{{\mathcal {I}}(\theta )}}\sim {\mathcal {N}}\left(0,{\frac {{\mathcal {I}}(\theta )}{[{\mathcal {I}}(\theta )]^{2}}}\right)\equiv {\mathcal {N}}(0,1/{\mathcal {I}}(\theta ))$ . It follows that ${\sqrt {n}}({\hat {\theta }}-\theta )\;{\overset {d}{\to }}\;{\mathcal {N}}(0,1/{\mathcal {I}}(\theta )).$ This means ${\hat {\theta }}-\theta \;{\overset {d}{\to }}\;{\mathcal {N}}(0,1/(n{\mathcal {I}}(\theta )))\equiv {\mathcal {N}}(0,1/{\mathcal {I}}_{n}(\theta )),$ and thus ${\frac {{\hat {\theta }}-\theta }{\sqrt {1/{\mathcal {I}}_{n}(\theta )}}}\;{\overset {d}{\to }}\;{\mathcal {N}}{\Bigg (}0,{\frac {1/(n{\mathcal {I}}(\theta ))}{1/\underbrace {{\mathcal {I}}_{n}(\theta )} _{=n{\mathcal {I}}(\theta )}}}{\Bigg )}\equiv {\mathcal {N}}(0,1)$ as desired.

$\Box$

备注。

等效地，我们可以写成 ${\hat {\theta }}\;{\overset {d}{\to }}\;{\mathcal {N}}(\theta ,1/{\mathcal {I}}_{n}(\theta ))$ 。因此， $\theta$ 的 MLE 方差渐近意义上达到 $\theta$ 的 CRLB。这意味着 $\theta$ 的 MLE 渐近意义上是 $\theta$ 的 UMVUE。
正则条件基本上类似于 Cramer-Rao 不等式中提到的正则条件。

由于在某些情况下我们无法使用 CRLB 来寻找 UMVUE，因此我们将介绍另一种方法来寻找 UMVUE，该方法使用 充分性 和 完备性 的概念。

充分性

直观地说，一个充分统计量 $T(X_{1},\dotsc ,X_{n})$ ，它是给定随机样本 $X_{1},\dotsc ,X_{n}$ 的函数，包含估计未知参数（向量） $\theta$ 所需的所有信息。因此，统计量 $T(X_{1},\dotsc ,X_{n})$ 本身就“足够”用于估计未知参数（向量） $\theta$ 。

形式上，我们可以定义和描述充分统计量如下

定义。 （充分统计量）一个统计量 $T=T(X_{1},\dotsc ,X_{n})$ 是一个充分统计量，用于估计未知参数（向量） $\theta$ ，如果随机样本 $X_{1},\dotsc ,X_{n}$ 的条件分布 给定 $T$ 不依赖于 $\theta$ 。

备注。

这个定义可以表示为

$f(x_{1},\dotsc ,x_{n}|T;\theta )=f(x_{1},\dotsc ,x_{n}|T)$

其中

f

是

X_{1},\dotsc ,X_{n}

的联合概率密度函数或概率质量函数。

这个等式意味着 $X_{1},\dotsc ,X_{n}$ 给定（ $T$ 的值）的联合条件概率质量函数或概率密度函数，与给定（ $T$ 的值）的 $X_{1},\dotsc ,X_{n}$ 的联合条件概率质量函数或概率密度函数相同，并且参数值为 $\theta$ 。

这意味着，即使给定参数值 $\theta$ ，pmf 或 pdf 也不会发生改变，进而意味着给定 $T$ 的值后， $X_{1},\dotsc ,X_{n}$ 的联合条件 pmf 或 pdf 实际上不依赖于 $\theta$ 。

$f(x_{1},\dotsc ,x_{n}|T)$ 表示 $f_{X_{1},\dotsc ,X_{n}|T}(x_{1},\dotsc ,x_{n}|t)$ 在实现 $T=t$ 之前，它是一个随机变量（随机性来自 $T$ ）。
在实现 $T=t$ 之后，公式仍然成立（ $T$ 被修改为 $T=t$ ）。

示例。 考虑来自 ${\mathcal {N}}(\mu ,\sigma ^{2})$ 的随机样本 $X_{1},\dotsc ,X_{n}$ 。可以证明 ${\overline {X}}$ 是 $\mu$ 的充分统计量，但不是 $\sigma ^{2}$ 的充分统计量。

这可以通过应用定义来证明。然而，我们将在稍后提供一种替代方法，该方法通常更方便用来检查统计量的充分性并找到充分统计量。我们将在这里非正式地解释为什么它是正确的。

${\overline {X}}$ 包含分布的集中趋势的信息，这应该是估计平均值 $\mu$ 所需的信息。因此，它是 $\mu$ 的充分统计量。
然而， ${\overline {X}}$ 不包含分布 离散度 的信息（它只说明了“中心位置”，但对于特定中心位置，离散度可能会有很大差异），而这应该是估计方差 $\sigma ^{2}$ 所需的信息。因此，它不是 $\sigma ^{2}$ 的充分统计量。

备注。

从这里，我们也可以预期充分统计量不是唯一的，因为例如， $2{\overline {X}}$ 也应该包含中心趋势的信息（因为我们可以将其除以 2 来得到 ${\overline {X}}$ 的值，从而获得信息）。
事实上，一般来说，给定 $T$ 是 $\theta$ 的充分统计量，那么 $v(T)$ 也是 $\theta$ 的充分统计量，前提是 $v$ 是一个 双射函数（也称为可逆函数、一对一对应或双射），以便其逆函数存在。

让我们正式说明一下上面关于充分统计量变换的结论。

命题。 令 $T$ 是未知参数（向量） $\theta$ 的充分统计量。那么， $v(T)$ 也是 $\theta$ 的充分统计量，对于每个 双射函数 $v$ 。

现在，我们讨论一个帮助我们检验统计量充分性的定理，即（Fisher-Neyman）分解定理。

定理。（分解定理）设 $f(x_{1},\dotsc ,x_{n};\theta )$ 是随机样本 $X_{1},\dotsc ,X_{n}$ 的联合概率密度函数或概率质量函数。统计量 $T=T(X_{1},\dotsc ,X_{n})$ 是 $\theta$ 的 充分统计量 当且仅当存在函数 $g$ 和 $h$ 使得 $f(x_{1},\dotsc ,x_{n};\theta )=g(T(x_{1},\dotsc ,x_{n});\theta )h(x_{1},\dotsc ,x_{n})$ 其中 $g$ 依赖于 $x_{1},\dotsc ,x_{n}$ 仅通过 $T(x_{1},\dotsc ,x_{n})$ ，而 $h$ 不依赖于 $\theta$ 。

证明。 由于连续情况的证明相当复杂，我们将只给出离散情况的证明。为了便于表示，令 $\mathbf {X} =(X_{1},\dotsc ,X_{n})$ , $T=T(X_{1},\dotsc ,X_{n})$ , $\mathbf {x} =(x_{1},\dotsc ,x_{n})$ , 和 $t=T(x_{1},\dotsc ,x_{n})$ ，因此有这些不同类型的pmf的符号。根据定义， $f_{\mathbf {X} |T}(\mathbf {x} |t;\theta )=f_{\mathbf {X} |T}(\mathbf {x} ,t)$ 。此外，我们有 $\mathbf {X} =\mathbf {x} \iff \mathbf {X} =\mathbf {x} \cap T(\mathbf {X} )=T(\mathbf {x} )\iff \mathbf {X} =\mathbf {x} \cap T=t$ 。因此，我们可以写成 $f_{\mathbf {X} ,T}(\mathbf {x} ,t;\theta )=f_{\mathbf {X} }(\mathbf {x} ;\theta )\quad (*)$ .

"当且仅当" ( $\Rightarrow$ ) 方向：假设 $T$ 是一个充分统计量。那么，我们选择 $g(t;\theta )=f_{T}(t;\theta )$ 和 $h(\mathbf {x} )=f_{\mathbf {X} |T}(\mathbf {x} |t)$ ，它不依赖于 $\theta$ ，这是根据充分统计量的定义。剩下的就是验证这个等式对于这个选择是否成立。

因此， $f_{\mathbf {X} }(\mathbf {x} ;\theta )=f_{\mathbf {X} ,T}(\mathbf {x} ,t;\theta ){\overset {\text{ def }}{=}}f_{\mathbf {X} |T}(\mathbf {x} |t;\theta )f_{T}(t;\theta ){\overset {\text{ sufficiency }}{=}}f_{\mathbf {X} |T}(\mathbf {x} |t)f_{T}(t;\theta )=h(\mathbf {x} )g(t;\theta ).$

"if" ( $\Leftarrow$ ) direction: Assume we can write $f_{\mathbf {X} }(\mathbf {x} ;\theta )=g(t;\theta )h(\mathbf {x} )$ . Then, $f_{T}(t;\theta ){\overset {\text{ marginal pmf }}{=}}\sum _{\mathbf {x} }^{}f_{\mathbf {X} ,T}(\mathbf {x} ,t;\theta ){\overset {\text{ (*) }}{=}}\sum _{\mathbf {x} }^{}f_{\mathbf {X} }(\mathbf {x} ;\theta ){\overset {\text{ assumption }}{=}}\sum _{\mathbf {x} }^{}g(t;\theta )h(\mathbf {x} )=\underbrace {g(t;\theta )} _{{\text{independent from }}\mathbf {x} }\sum _{\mathbf {x} }^{}h(\mathbf {x} ).$ Now, we aim to show that $f_{\mathbf {X} |T}(\mathbf {x} |t)$ does not depend on $\theta$ , which means $T$ is a sufficient statistic for $\theta$ . We have $f_{\mathbf {X} |T}(\mathbf {x} |t){\overset {\text{ def }}{=}}{\frac {f_{\mathbf {X} ,T}(\mathbf {x} ,t;\theta )}{f_{T}(t;\theta )}}{\overset {\text{ (*) }}{=}}{\frac {f_{\mathbf {X} }(\mathbf {x} ;\theta )}{f_{T}(t;\theta )}}={\frac {\overbrace {g(t;\theta )h(\mathbf {x} )} ^{\text{assumption}}}{\underbrace {g(t;\theta )\sum _{\mathbf {x} }^{}h(\mathbf {x} )} _{\text{above}}}}={\frac {h(\mathbf {x} )}{\sum _{\mathbf {x} }^{}h(\mathbf {x} )}},$ which does not depend on $\theta$ , as desired.

$\Box$

备注。

$h(x_{1},\dotsc ,x_{n})$ 也可以是一个常数，它显然不依赖于 $\theta$ 。

示例。 考虑一个来自 ${\mathcal {N}}(\mu ,\sigma ^{2})$ 的随机样本 $X_{1},\dotsc ,X_{n}$ 。找到 $\theta =(\mu ,\sigma ^{2})$ 的充分统计量。

Solution: The joint pdf of $X_{1},\dotsc ,X_{n}$ is ${\begin{aligned}f(x_{1},\dotsc ,x_{n};\theta )&=\prod _{i=1}^{n}{\frac {1}{\sqrt {2\pi \sigma ^{2}}}}\exp \left(-{\frac {(x_{i}-\mu )^{2}}{2\sigma ^{2}}}\right)\\&=(2\pi \sigma ^{2})^{-n/2}\exp \left(\sum _{i=1}^{n}{\frac {(x_{i}-\mu )^{2}}{2\sigma ^{2}}}\right)\\&=(2\pi \sigma ^{2})^{-n/2}\exp \left(\sum _{i=1}^{n}{\frac {(x_{i}{\color {darkgreen}-{\overline {x}}+{\overline {x}}}-\mu )^{2}}{2\sigma ^{2}}}\right)\\&=(2\pi \sigma ^{2})^{-n/2}\exp \left(\sum _{i=1}^{n}{\frac {(x_{i}{\color {darkgreen}-{\overline {x}}})^{2}+2(x_{i}-{\overline {x}})({\overline {x}}-\mu )+({\color {darkgreen}{\overline {x}}}-\mu )^{2}}{2\sigma ^{2}}}\right)\\&=(2\pi \sigma ^{2})^{-n/2}\exp \left(\sum _{i=1}^{n}{\frac {(x_{i}{\color {darkgreen}-{\overline {x}}})^{2}+({\color {darkgreen}{\overline {x}}}-\mu )^{2}}{2\sigma ^{2}}}\right)&\left(\sum _{i=1}^{n}(x_{i}-{\overline {x}})({\overline {x}}-\mu )=({\overline {x}}-\mu )\sum _{i=1}^{n}(x_{i}-{\overline {x}})=({\overline {x}}-\mu )\left(\sum _{i=1}^{n}x_{i}-\sum _{i=1}^{n}{\overline {x}}\right)=({\overline {x}}-\mu )(n{\overline {x}}-n{\overline {x}})=0\right)\\&=(2\pi \sigma ^{2})^{-n/2}\exp \left({\frac {1}{2\sigma ^{2}}}\left(\sum _{i=1}^{n}(x_{i}{\color {darkgreen}-{\overline {x}}})^{2}+\sum _{i=1}^{n}({\color {darkgreen}{\overline {x}}}-\mu )^{2}\right)\right)\\&=\underbrace {(2\pi )^{-n/2}} _{h(x_{1},\dotsc ,x_{n})}\underbrace {\sigma ^{-n}\exp \left({\frac {1}{2\sigma ^{2}}}\left(ns^{2}+n({\overline {x}}-\mu )^{2}\right)\right)} _{g(T(x_{1},\dotsc ,x_{n});\theta )}&\left(({\overline {x}}-\mu )^{2}{\text{ is independent from }}i\right).\\\end{aligned}}$ Notice that the function $g$ depends on $x_{1},\dotsc ,x_{n}$ only through $T(x_{1},\dotsc ,x_{n})=({\overline {x}},s^{2})$ , so we can conclude that $T(X_{1},\dotsc ,X_{n})=({\overline {X}},S^{2})$ .

备注。

我们也可以写 $({\overline {X}},S^{2})$ 作为 $(S^{2},{\overline {X}})$ ，它也是 $\theta$ 的充分统计量。

直观地，这是因为后者也包含相同的统计量，因此包含相同的信息。
或者，我们可以定义函数 $v$ 作为 $(z_{1},z_{2})\mapsto (z_{2},z_{1})$ ，这是一个双射函数，所以 $v({\overline {X}},S^{2})=(S^{2},{\overline {X}})$ 也是 $\theta$ 的充分统计量。

我们需要从 " $(2\pi \sigma ^{2})^{-n/2}$ " 中分离出 " $\sigma ^{-n}$ "，因为对于函数 $h(x_{1},\dotsc ,x_{n})$ ，它不能依赖于 $\theta =(\mu ,\sigma ^{2})$ 。因此，我们不能在 $h(x_{1},\dotsc ,x_{n})$ 函数的定义中包含 " $\sigma ^{-n}$ "。
在这种情况下，定义 $g$ 和 $h$ 函数有很多方法。

对于一些属于 指数族 的“良好”分布，可以使用另一种替代方法轻松方便地找到充分统计量。这种方法之所以有效，是因为这些分布的 pdf 或 pmf 具有“良好”的形式，可以表征如下：

定义。（指数族）随机变量 $X$ 的分布属于指数分布，如果 $X$ 的 pdf 或 pmf 具有以下形式 $f(x;\theta )=h(x)g(\theta )\exp \left(\sum _{i=1}^{\color {darkgreen}s}\eta _{i}(\theta )T_{i}(x)\right)$ 其中 $\theta =(\theta _{1},\dotsc ,\theta _{\color {darkgreen}s})\in \Theta \subseteq \mathbb {R} ^{\color {darkgreen}s}$ ，对于一些函数 $h,g,\eta _{i},T_{i}$ ( $i=1,2\dotsc ,s$ ）。

备注。

$s$ 的值取决于未知参数的数量。

请注意 $s$ 可以是 1，在这种情况下，" $\theta$ " 只是一个单一参数。

指数族包括许多常见的分布，例如正态分布、指数分布、伽马分布、卡方分布、贝塔分布、伯努利分布、泊松分布、几何分布等。

然而，一些常见的分布不属于指数族，例如学生 $t$ 分布、 $F$ 分布、柯西分布和超几何分布。

例如。 正态分布属于指数族，其中 $\theta =(\mu ,\sigma ^{2})\in \mathbb {R} ^{2}$ （因此 " $s$ " 在这种情况下为 2），因为它的 pdf 可以表示为 $f(x;\theta )={\frac {1}{\sqrt {2\pi \sigma ^{2}}}}\exp \left(-{\frac {(x-\mu )^{2}}{2\sigma ^{2}}}\right)={\frac {1}{\sqrt {2\pi \sigma ^{2}}}}\exp \left(-{\frac {x^{2}-2\mu x+\mu ^{2}}{2\sigma ^{2}}}\right)=\left[{\frac {1}{\sqrt {2\pi \sigma ^{2}}}}\exp \left(-{\frac {\mu ^{2}}{2\sigma ^{2}}}\right)\right]\exp \left(-{\frac {x^{2}-2\mu x}{2\sigma ^{2}}}\right)=\underbrace {(1)} _{h(x)}\underbrace {\left[{\frac {1}{\sqrt {2\pi \sigma ^{2}}}}\exp \left(-{\frac {\mu ^{2}}{2\sigma ^{2}}}\right)\right]} _{g(\theta )}\exp {\Bigg [}\underbrace {\frac {\mu }{\sigma ^{2}}} _{\eta _{1}(\theta )}\cdot \underbrace {x} _{T_{1}(x)}+\underbrace {\left(-{\frac {1}{2\sigma ^{2}}}\right)} _{\eta _{2}(\theta )}\cdot \underbrace {x^{2}} _{T_{2}(x)}{\Bigg ]}$

定理。 (指数族的充分统计量) 令 $X_{1},\dotsc ,X_{n}$ 是来自指数族分布的随机样本，其概率密度函数或概率质量函数为 $f(x;\theta )$ ，其中 $\theta \in \mathbb {R} ^{s}$ 。那么，充分统计量 对于 $\theta$ 是 $T(X_{1},\dotsc ,X_{n})=\left(\sum _{j=1}^{n}T_{1}(X_{j}),\dotsc ,\sum _{j=1}^{n}T_{s}(X_{j})\right).$

Proof. Since the distribution belongs to the exponential family, the joint pdf or pmf of $X_{1},\dotsc ,X_{n}$ can be expressed as ${\begin{aligned}f(x_{1},\dotsc ,x_{n};\theta )&=\prod _{{\color {blue}j}=1}^{n}\left[h(x_{\color {blue}j})g(\theta )\exp \left(\sum _{i=1}^{\color {darkgreen}s}\eta _{i}(\theta )T_{i}(x_{\color {blue}j})\right)\right]\\&=\left[\prod _{j=1}^{n}h(x_{j})\right](g(\theta ))^{n}\exp \left(\sum _{{\color {blue}j}=1}^{n}\sum _{i=1}^{s}\eta _{i}(\theta )T_{i}(x_{\color {blue}j})\right)\\&=\left[\prod _{j=1}^{n}h(x_{j})\right](g(\theta ))^{n}\exp \left(\sum _{i=1}^{s}\sum _{{\color {blue}j}=1}^{n}\eta _{i}(\theta )T_{i}(x_{\color {blue}j})\right)&({\text{changing summation order, where the upper bounds are constants}})\\&=\left[\prod _{j=1}^{n}h(x_{j})\right](g(\theta ))^{n}\exp \left(\sum _{i=1}^{s}\underbrace {\eta _{i}(\theta )} _{{\text{independent from }}j}\sum _{{\color {blue}j}=1}^{n}T_{i}(x_{\color {blue}j})\right)\\&={\color {purple}\left[\prod _{j=1}^{n}h(x_{j})\right]}{\color {red}(g(\theta ))^{n}\exp \left(\eta _{1}(\theta )\sum _{{\color {blue}j}=1}^{n}T_{1}(x_{\color {blue}j})+\dotsb +\eta _{s}(\theta )\sum _{{\color {blue}j}=1}^{n}T_{s}(x_{\color {blue}j})\right)}.\\\end{aligned}}$ From here, for applying the factorization theorem, we can identify the purple part of the function as " $h(x_{1},\dotsc ,x_{n})$ ", and the red part of the function as " $g(T(x_{1},\dotsc ,x_{n});\theta )$ ". We can notice that the red part of the function depends on $x_{1},\dotsc ,x_{n}$ only through $\left(\sum _{j=1}^{n}T_{1}(x_{j}),\dotsc ,\sum _{j=1}^{n}T_{s}(x_{j})\right)$ . The result follows.

$\Box$

例子。 考虑来自 ${\mathcal {N}}(\mu ,\sigma ^{2})$ 的随机样本 $X_{1},\dotsc ,X_{n}$ 。证明 $\theta =(\mu ,\sigma ^{2})$ 的充分统计量是 $\left({\overline {X}},S^{2}\right)$ ，利用寻找指数族充分统计量的结果。

证明。 从之前的例子中，我们已经证明了正态分布属于指数族，从那里的表达式我们可以看到 $\theta$ 的充分统计量是 $T=\left(\sum _{j=1}^{n}X,\sum _{j=1}^{n}X^{2}\right)=\left(n{\overline {X}},n{\overline {X^{2}}}\right)$ 。

由于 $S^{2}={\frac {1}{n}}\sum _{j=1}^{n}(X_{j}-{\overline {X}})^{2}={\frac {1}{n}}\sum _{j=1}^{n}\left(X_{j}^{2}-2X_{j}{\overline {X}}+({\overline {X}})^{2}\right)={\frac {\sum _{j=1}^{n}X_{j}^{2}}{n}}-{\frac {2{\overline {X}}}{n}}\sum _{j=1}^{n}X_{j}+({\overline {X}})^{2}={\overline {X^{2}}}-2({\overline {X}})^{2}+({\overline {X}})^{2}={\overline {X^{2}}}-({\overline {X}})^{2}$ ，我们可以定义函数 $v$ 如下 $(z_{1},z_{2})\mapsto \left(z_{1}/n,z_{2}/n-(z_{1}/n)^{2}\right),$ 可以证明这是一个双射函数。

因此， $v(T)=\left({\overline {X}},S^{2}\right)$ 也是 $\theta$ 的充分统计量。

$\Box$

现在，我们将开始讨论充分统计量与UMVUE的关系。我们从 Rao-Blackwell 定理 开始讨论。

定理。 (Rao-Blackwell 定理) 令 $W$ 是 $\tau (\theta )$ 的任意无偏估计量，而 $T$ 是 $\theta$ 的 充分统计量。定义 $\varphi (T)=\mathbb {E} [W|T]$ 。那么， $\varphi (T)$ 是 $\tau (\theta )$ 的无偏估计量，且 $\operatorname {Var} (\varphi (T))\leq \operatorname {Var} (W)$ .

证明。 假设 $W$ 是 $\tau (\theta )$ 的任意无偏估计量，而 $T$ 是 $\theta$ 的充分统计量。

首先，我们证明 $\varphi (T)$ 是 $\tau (\theta )$ 的无偏估计量。在证明无偏性之前，我们应该确保 $\varphi (T)$ 实际上是一个估计量，即它是一个统计量，它是随机样本的函数，并且需要独立于 $\theta$ （以便它可以计算）：因为 $W$ 是随机样本的函数，而 $T$ 是充分统计量，使得 $W$ 在给定 $T$ 条件下的条件分布，独立于 $\theta$ 。此外， $\varphi (T)=\mathbb {E} [W|T]$ 是 $W$ 的函数，因此也是随机样本的函数。

现在，我们证明 $\varphi (T)$ 是 $\tau (\theta )$ 的无偏估计量：因为 $\mathbb {E} [\varphi (T)]=\mathbb {E} [\mathbb {E} [W|T]]{\overset {\text{ law of total expectation }}{=}}\mathbb {E} [W]{\overset {\text{ unbiasedness }}{=}}\tau (\theta )$ ， $\varphi (T)$ 是 $\tau (\theta )$ 的无偏估计量。

接下来，我们证明 $\operatorname {Var} (\varphi (T))\leq \operatorname {Var} (W)$ ：根据全方差定律，我们有 $\operatorname {Var} (W)=\operatorname {Var} (\mathbb {E} [W|T])+\mathbb {E} [\operatorname {Var} (W|T)]{\overset {\text{ def }}{=}}\operatorname {Var} (\varphi (T))+\overbrace {\mathbb {E} [\underbrace {\operatorname {Var} (W|T)} _{\geq 0}]} ^{\geq 0}\geq \operatorname {Var} (\varphi (T)),$ 如我们所愿。

$\Box$

备注。

随机变量 $\varphi (T)=\mathbb {E} [W|T]$ 是通过首先找到 $\varphi (t)=\mathbb {E} [W|T=t]$ ，然后用 $T$ 替换 $t$ 确定的。这里， $\varphi (t)$ 是 $\varphi (T)$ 的实现。
根据 Rao-Blackwell 定理，我们知道 $\varphi (T)=\mathbb {E} [W|T]$ 在效率方面是一个比 $W$ 更好（或者至少“相同质量”）的估计量。请注意，该定理没有说明 $\varphi (T)$ 是效率方面最佳估计量（即 UMVUE）。相反，它只是说明 $\varphi (T)$ 在效率方面更好于 $W$ 。
应用该定理一次后， $\varphi (T)$ 可以作为 $\tau (\theta )$ 的“任意无偏估计量”，我们可以再次应用此定理，依此类推。这意味着，在多次应用该定理后，得到的 $\varphi (T)$ 将是 UMVUE。

我们可以将此过程解释为不断“改进”无偏估计量 $W$ ，直到它成为最佳的（在效率意义上），即它是 UMVUE。
由于 UMVUE 是唯一的，UMVUE 必须是给定充分统计量 $T$ 的随机变量的条件期望，它是一个关于 $T$ 的函数。
因此，我们现在可以将 UMVUE 的候选范围缩小到充分统计量 $T$ 的函数。

要实际确定 UMVUE，我们需要另一个定理，称为 莱曼-谢费定理，该定理基于 Rao-Blackwell 定理，并且需要 完备性 的概念。

完备性

定义。（完备统计量）设 $X_{1},\dotsc ,X_{n}$ 是从具有参数（向量） $\theta$ 的分布中得到的随机样本，该参数位于参数空间 $\Theta$ 中。如果对于每个 $\theta \in \Theta$ ， $\mathbb {E} [g(T)]=0$ 意味着对于每个 $\theta \in \Theta$ ， $\mathbb {P} (g(T)=0)=1$ ，则统计量 $T$ 是一个完备统计量。

当随机样本 $X_{1},\dotsc ,X_{n}$ 来自指数族分布时，可以很容易地找到一个完备统计量，类似于充分统计量的案例。

定理。（指数族的完备统计量）如果 $X_{1},\dotsc ,X_{n}$ 是来自指数族分布的随机样本，其中未知参数（向量） $\theta \in \Theta \subseteq \mathbb {R} ^{\color {darkgreen}s}$ ，则 $T(X_{1},\dotsc ,X_{n})=\left(\sum _{j=1}^{n}T_{1}(X_{j}),\sum _{j=1}^{n}T_{2}(X_{j}),\dotsc ,\sum _{j=1}^{n}T_{\color {darkgreen}s}(X_{j})\right)$ 是一个完备统计量， 前提是 参数空间 $\Theta$ 包含 $\mathbb {R} ^{\color {darkgreen}s}$ 中的一个开集.

证明。 省略。

$\Box$

备注。

开集是 开区间 的推广。实际上， $\mathbb {R}$ 中的开集就是 开区间。
直观地说，开集指的是，对于集合中的每个点，该集合都包含所有足够靠近该点的点。
例如， $\mathbb {R} ^{2}$ 中的一条直线（可以看作一个集合）不是一个开集，因为对于直线上的每个点，直线不包含所有足够靠近该点的点（直线上方和下方有一些点不在集合中）。
同样， $\mathbb {R} ^{3}$ 中的一个圆盘（平面中由圆围成的区域）也不是一个开集，因为对于圆盘中的每个点，圆盘不包含所有足够靠近该点的点（圆盘上方和下方有一些点不在圆盘中）。
从关于指数族充分统计量的先前定理，我们知道 $T(X_{1},\dotsc ,X_{n})$ 也是 $\theta$ 在这些条件下的充分统计量。

当一个统计量对于参数（向量） $\theta$ 既是充分统计量，也是完备统计量时，我们将这种统计量称为 $\theta$ 的 完备充分统计量。

定理。 （莱曼-谢弗定理）如果 $T$ 是 $\theta$ 的一个 完备充分统计量 且 $\mathbb {E} [\varphi (T)]=\tau (\theta )$ ，则 $\varphi (T)$ 是 $\tau (\theta )$ 的 唯一UMVUE（以概率1）。

证明。 假设 $T$ 是 $\theta$ 的一个 完备充分统计量 且 $\mathbb {E} [\varphi (T)]=\tau (\theta )$ 。

由于 $T$ 是 $\theta$ 的充分统计量，我们可以应用Rao-Blackwell定理。根据Rao-Blackwell定理，如果 $W$ 是 $\tau (\theta )$ 的任意无偏估计，则 $\varphi (T)$ 是另一个无偏估计，其中 $\operatorname {Var} (\varphi (T))\leq \operatorname {Var} (W)$ 。

为了证明 $\varphi (T)$ 是 $\tau (\theta )$ 的唯一最佳线性无偏估计 (UMVUE)，我们将证明，无论选择哪个 $\tau (\theta )$ 的无偏估计量 $W$ ，我们都会从 Rao-Blackwell 定理（以概率 1）中得到相同的 $\varphi (T)$ 。然后，对于 $\tau (\theta )$ 的每个可能的无偏估计量 $W$ ，我们有 $\operatorname {Var} (\varphi (T))\leq \operatorname {Var} (W)$ （以概率 1）^[8]，这意味着 $\varphi (T)$ 是 UMVUE，而且是唯一的 UMVUE，因为我们总是得到相同的 $\varphi (T)$ ^[9].

假设 $W'$ 是 另一个 $\tau (\theta )$ 的无偏估计量 ( $W'\neq W$ )。根据 Rao-Blackwell 定理，存在一个无偏估计量 $\psi (T)=\mathbb {E} [W'|T]$ ( $\psi (T)\neq \varphi (T)$ )，其中 $\operatorname {Var} (\psi (T))\leq \operatorname {Var} (W')$ 。由于 $\varphi (T)$ 和 $\psi (T)$ 都是 $\tau (\theta )$ 的无偏估计量，对于每个 $\theta \in \Theta$ ，我们有 $\mathbb {E} [\varphi (T)]=\mathbb {E} [\psi (T)]\implies \mathbb {E} [\varphi (T)-\psi (T)]=0.$ 由于 $T$ 是一个完备统计量，我们有 $\mathbb {P} (\varphi (T)-\psi (T)=0)=1\implies \mathbb {P} (\varphi (T)=\psi (T))=1,$ 这意味着 $\varphi (T)=\psi (T)$ （以概率 1），即，在这种情况下我们从 Rao-Blackwell 定理中得到相同的 $\varphi (T)$ （以概率 1）。

$\Box$

备注。

此定理中的“ $\varphi (T)$ ” 是 $T$ 的一个函数，从证明和 Rao-Blackwell 定理我们知道它实际上是 $\mathbb {E} [W|T]$ ，其中 $W$ 是 $\tau (\theta )$ 的任意无偏估计。

因此，当我们应用此定理时，只要我们能找到一个 $T$ 的函数 $\phi (T)$ （也许可以通过一些观察），使得 $\mathbb {E} [\phi (T)]=\tau (\theta )$ ，我们知道 $\phi (T)$ 是 $\tau (\theta )$ 的唯一 UMVUE。同时，由于 UMVUE 的唯一性， $\phi (T)$ 实际上是 $\varphi (T)=\mathbb {E} [W|T]$ ，其中 $W$ 是 $\tau (\theta )$ 的任意无偏估计。
我们可以通过一些检查，如上所述，在简单的情况下找到 $\varphi (T)$ 。然而，在更复杂的情况下， $\varphi (T)$ 的显式形式可能并不直接明了，使得 $\mathbb {E} [\varphi (T)]=\tau (\theta )$ 。在这种情况下，我们需要找到 $\tau (\theta )$ 的无偏估计量并评估 $\mathbb {E} [W|T]$ 以获得 $\varphi (T)$ 的显式形式。

示例： 考虑来自 ${\mathcal {N}}(\mu ,\sigma ^{2})$ 的随机样本 $X_{1},\dotsc ,X_{n}$ 。令未知参数向量为 $\theta =(\mu ,\sigma ^{2})$ 。

(a) 证明 $\theta$ 的充分统计量，即 $\left({\overline {X}},S^{2}\right)$ ，也是一个完备统计量。

(b) 因此，证明 ${\overline {X}}$ 和 ${\frac {n}{n-1}}\cdot S^{2}$ 分别是 $\mu$ 和 $\sigma ^{2}$ 的UMVUE。

解:

(a)

证明： 只需证明参数空间 $\Theta =\{(\mu ,\sigma ^{2}):\mu \in \mathbb {R} ,\sigma ^{2}>0\}$ 包含 $\mathbb {R} ^{2}$ 中的一个开集。这是真的，因为参数空间 $\Theta$ 是使用笛卡尔坐标系表示时 $x$ 轴上方的整个区域，因此包含一个开集。

$\Box$

(b)

证明。 由于 $\mathbb {E} [{\overline {X}}]=\mu$ 以及 $\mathbb {E} \left[{\frac {n}{n-1}}\cdot S^{2}\right]=\sigma ^{2}$ （我们之前已经证明过），以及 ${\overline {X}}$ 和 ${\frac {n}{n-1}}\cdot S^{2}$ 分别是完全充分统计量 ${\overline {X}}$ （关于 $\mu$ ）和 $S^{2}$ （关于 $\sigma ^{2}$ ）的函数，根据莱曼-谢菲定理，我们得到所需的结果。

$\Box$

备注。

我们已经证明 ${\frac {n}{n-1}}\cdot S^{2}$ 达不到 $\sigma ^{2}$ 的 CRLB，并且 $\sigma ^{2}$ 的 CRLB 实际上是不可达到的。因此，我们之前无法确定 ${\frac {n}{n-1}}\cdot S^{2}$ 是否是 $\sigma ^{2}$ 的 UMVUE。现在，我们知道 ${\frac {n}{n-1}}\cdot S^{2}$ 实际上是 $\sigma ^{2}$ 的 UMVUE，借助于莱曼-谢菲定理。

示例： 假设从伯努利分布中抽取一个随机样本 $X_{1},\dotsc ,X_{n}$ ，其成功概率为 $p$ ，即 $\operatorname {Ber} (p)$ ，其概率质量函数为 $f(x;p)=p^{x}(1-p)^{1-x},\quad x=0,1$ .

(a) 求 $p$ 的一个完备充分统计量 $T$ .

(b) 从而，求 $p$ 的一致最小方差无偏估计 (UMVUE)。

(c) 证明 $\mathbf {1} \{X_{1}=1\}$ 是 $p$ 的无偏估计量，且 $\mathbb {E} [\mathbf {1} \{X_{1}=1\}|T]$ 是 $p$ 的 UMVUE。

解

(a) 概率质量函数 $f(x;p)=p^{x}(1-p)^{1-x}=(1-p)\left({\frac {p}{1-p}}\right)^{x}=\underbrace {(1)} _{h(x)}\underbrace {(1-p)} _{g(\theta )}\exp \left(\underbrace {x} _{T(x)}\underbrace {\ln \left({\frac {p}{1-p}}\right)} _{\eta (p)}\right)$ 。这意味着伯努利分布属于指数族。此外，参数空间 $\Theta =\{p:0\leq p\leq 1\}$ 在 $\mathbb {R}$ 中包含一个开集。因此， $T=\sum _{j=1}^{n}X_{j}$ 是 $p$ 的一个完备充分统计量。

(b) 注意到 $\mathbb {E} [T/n]=\mathbb {E} [{\overline {X}}]={\frac {np}{n}}=p$ 。因此， ${\overline {X}}$ （它是 $T$ 的函数）是 $p$ 的UMVUE。

(c)

证明。 由于 $\mathbb {E} [\mathbf {1} \{X_{1}=1\}]=(1)\mathbb {P} (X_{1}=1)=p$ ， $\mathbf {1} \{X_{1}=1\}$ 是 $p$ 的无偏估计量。

Now, we consider $\mathbb {E} [\mathbf {1} \{X_{1}=1\}|T]=\mathbb {E} \left[\mathbf {1} \{X_{1}=1\}|\sum _{j=1}^{n}X_{j}\right]$ . We denote $\sum _{j=1}^{n}X_{j}$ by $S_{n}$ . Then, this expectation becomes $\mathbb {E} [\mathbf {1} \{X_{1}=1\}|S_{n}]$ . In the following, we evaluate $\mathbb {E} [\mathbf {1} \{X_{1}=1\}|S_{n}=s_{n}]$ . ${\begin{aligned}\mathbb {E} \left[\mathbf {1} \{X_{1}=1\}|\sum _{j=1}^{n}X_{j}=s_{n}\right]&=(1)\mathbb {P} \left(\mathbf {1} \{X_{1}=1\}=1|\sum _{j=1}^{n}X_{j}=s_{n}\right)&({\text{definition}})\\&=\mathbb {P} \left(X_{1}=1|\sum _{j=1}^{n}X_{j}=s_{n}\right)\\&={\frac {\mathbb {P} \left(\sum _{j=1}^{n}X_{j}=s_{n}|X_{1}=1\right)\mathbb {P} (X_{1}=1)}{\mathbb {P} \left(\sum _{j=1}^{n}X_{j}=s_{n}\right)}}&({\text{Bayes' theorem}})\\&={\frac {\mathbb {P} \left(\sum _{j=2}^{n}X_{j}=s_{n}-1\right)\cdot p}{\mathbb {P} \left(\sum _{j=1}^{n}X_{j}=s_{n}\right)}}\\\end{aligned}}$ Notice that $\sum _{j=1}^{n}X_{j}$ follows the binomial distribution with $n$ trials with success probability $p$ , i.e., $\operatorname {Binom} (n,p)$ , and $\sum _{j=2}^{n}X_{j}\sim \operatorname {Binom} (n-1,p)$ . Hence, ${\begin{aligned}{\frac {\mathbb {P} \left(\sum _{j=2}^{n}X_{j}=s_{n}-1\right)\cdot p}{\mathbb {P} \left(\sum _{j=1}^{n}X_{j}=s_{n}\right)}}&={\frac {{\binom {n-1}{s_{n}-1}}p^{s_{n}-1}(1-p)^{n-1-s_{n}+1}\cdot p}{{\binom {n}{s_{n}}}p^{s_{n}}(1-p)^{n-s_{n}}}}&({\text{binomial distribution pmf's}})\\&={\frac {\frac {(n-1)!}{(s_{n}-1)!(n-s_{n})!}}{\frac {n!}{s_{n}!(n-s_{n})!}}}\\&={\frac {(n-1)!s_{n}(s_{n}-1)!}{n(n-1)!(s_{n}-1)!}}&(s_{n}!=s_{n}(s_{n}-1)!{\text{ and }}n!=n(n-1)!)\\&={\frac {s_{n}}{n}}.\end{aligned}}$ Now, replacing $s_{n}$ by $S_{n}=\sum _{j=1}^{n}X_{j}$ gives $\mathbb {E} \left[\mathbf {1} \{X_{1}=1\}|\sum _{j=1}^{n}X_{j}\right]={\frac {\sum _{j=1}^{n}X_{j}}{n}}={\overline {X}},$ which is the UMVUE of $p$ , as desired.

$\Box$

练习。 我们可以使用 $p$ 的CRLB找到 $p$ 的UMVUE吗？如果可以，请使用这种方法找到它。如果不行，请解释原因。

解

不行。这是因为对数似然函数不可微（它仅当 $x=0,1$ 时才具有非零值），因此费舍尔信息未定义。因此，CRLB不存在。

练习。 从具有速率参数 $\lambda$ 的泊松分布中考虑一个随机样本 $X_{1},\dotsc ,X_{n}$ ，其pmf为 $f(x;\lambda )={\frac {e^{-\lambda }\lambda ^{x}}{x!}}$ 。

(a) 找到 $\lambda$ 的一个完备且充分的统计量。

(b) 找到 $\lambda /n$ 的UMVUE。

解

(a) 概率质量函数为 $f(x;\lambda )={\frac {e^{-\lambda }\lambda ^{x}}{x!}}={\frac {e^{-\lambda }}{x!}}\underbrace {\exp(x\ln \lambda )} _{=\lambda ^{x}}=\underbrace {\frac {1}{x!}} _{h(x)}\cdot \underbrace {e^{-\lambda }} _{g(\lambda )}\exp(\underbrace {x} _{T(x)}\underbrace {\ln \lambda } _{\eta (\lambda )}).$ 因此，泊松分布属于指数族，而 $\lambda$ 的完备充分统计量是 $T=\sum _{j=1}^{n}X_{j}$ 。

(b) 取 $\tau (\lambda )=\lambda /n$ 。由于 $\mathbb {E} [T]=\mathbb {E} \left[\sum _{j=1}^{n}X_{j}\right]=n\lambda$ ，我们有 $\mathbb {E} [T/n^{2}]=\lambda /n=\tau (\lambda ).$ 因此， $\tau (\lambda )=\lambda /n$ 的UMVUE 是 ${\frac {\sum _{j=1}^{n}X_{j}}{n^{2}}}={\frac {\overline {X}}{n}}$ （它是 $T$ 的函数）。

一致性

在前面的部分中，我们讨论了 无偏性 和效率。在本节中，我们将讨论另一个称为 一致性 的性质。

定义。 （一致估计量） ${\hat {\theta }}$ 是未知参数 $\theta$ 的一致估计量，如果 ${\hat {\theta }}\;{\overset {p}{\to }}\;\theta$ 。

备注。

根据概率收敛的定义， ${\hat {\theta }}\;{\overset {p}{\to }}\;\theta$ 意味着 $\mathbb {P} (|{\hat {\theta }}-\theta |>\varepsilon )\to 0$ 随着 $n\to \infty$ 趋于 0，对于每个 $\varepsilon >0$ 。

命题。 如果 ${\hat {\theta }}$ 是未知参数 $\theta$ 的（渐近）无偏估计量，并且 $\operatorname {Var} ({\hat {\theta }})\to 0$ 随着 $n\to \infty$ 趋于 0，则 ${\hat {\theta }}$ 是 $\theta$ 的一致估计量。

Proof. Assume ${\hat {\theta }}$ is an (asymptotically) unbiased estimator of an unknown parameter $\theta$ and $\operatorname {Var} ({\hat {\theta }})\to 0$ as $n\to \infty$ . Since ${\hat {\theta }}$ is an (asymptotically) unbiased estimator of $\theta$ , we have $\lim _{n\to \infty }\operatorname {Bias} ({\hat {\theta }})=0$ (this is true for both asymptotically unbiased estimator and unbiased estimator of $\theta$ ). In addition to this, we have by assumption that $\lim _{n\to \infty }\operatorname {Var} ({\hat {\theta }})=0$ . By definition of mean squared error, these imply that $\lim _{n\to \infty }\operatorname {MSE} ({\hat {\theta }})=0\Rightarrow \lim _{n\to \infty }\mathbb {E} [({\hat {\theta }}-\theta )^{2}]=0$ . Thus, as $n\to \infty$ , we have by Chebyshov's inequality (notice that $\operatorname {MSE} ({\hat {\theta }})=\mathbb {E} [({\hat {\theta }}-\theta )^{2}]$ exist from above), for each $\varepsilon >0$ , $\mathbb {P} (|{\hat {\theta }}-\theta |>\varepsilon )\leq {\frac {\mathbb {E} [({\hat {\theta }}-\theta )^{2}]}{\varepsilon ^{2}}}\to {\frac {0}{\varepsilon ^{2}}}=0.$ Since probability is nonnegative ( $\geq 0$ ), and this probability is less than or equal to an expression that tends to be 0 as $n\to \infty$ , we conclude that this probability tends to be zero as $n\to \infty$ . That is, ${\hat {\theta }}$ is a consistent estimator of $\theta$ .

$\Box$

备注。

无偏性本身并不意味着一致性。

示例. 令 $X_{1},\dotsc ,X_{n}$ 为来自 ${\mathcal {N}}(\mu ,\sigma ^{2})$ 的随机样本。那么， $X_{1}$ 是 $\mu$ 的无偏估计量，因为 $\mathbb {E} [X_{1}]=\mu$ 。然而，存在一些 $\varepsilon >0$ 使得 $\mathbb {P} (|X_{1}-\mu |>\varepsilon )\nrightarrow 0$ 当 $n\to \infty$ 时，即 $\lim _{n\to \infty }\mathbb {P} (|X_{1}-\mu |>\varepsilon )\neq 0$ 对于一些 $\varepsilon >0$ 。由于 $|X_{1}-\mu |$ 独立于 $n$ ，这意味着 $\mathbb {P} (|X_{1}-\mu |>\varepsilon )\neq 0$ 对于一些 $\varepsilon >0$ ，这是正确的。因此， $X_{1}$ 不是一致的 $\mu$ 的估计量。

练习。

(a) 提出一个 $\mu$ 的一致估计量，并证明它确实是 $\mu$ 的一致估计量 (提示：考虑大数弱定律)。

(b) 提出 变异系数（或相对标准差） ${\frac {\sigma }{\mu }}$ 的一致估计量（假设 $\mu \neq 0$ 使其定义），并证明它实际上是 ${\frac {\sigma }{\mu }}$ 的一致估计量（提示：考虑大数弱定律和概率收敛性质。你可以使用正态分布具有有限四阶矩这一事实）。

解

(a) ${\overline {X}}$ 是 $\mu$ 的一致估计量。

证明. 根据大数弱定律（注意到正态分布的均值 $\mu$ 和方差 $\sigma ^{2}$ 是有限的）， ${\overline {X}}\;{\overset {p}{\to }}\;\mu$ 如所愿。

$\Box$

(b) ${\frac {\sqrt {S^{2}}}{\overline {X}}}$ 是 ${\frac {\sigma }{\mu }}$ 的一致估计量。

证明。 根据大数弱定律（方差有限且四阶矩有限）， ${\overline {X^{2}}}\;{\overset {p}{\to }}\;\mathbb {E} [X^{2}]$ 。此外，根据连续映射定理，由于 $({\overline {X}})^{2}\;{\overset {p}{\to }}\;\mu ^{2}$ 。因此，根据概率收敛的性质和样本方差的结果， $S^{2}={\overline {X^{2}}}-({\overline {X}})^{2}\;{\overset {p}{\to }}\;\mathbb {E} [X^{2}]-\mu ^{2}=\sigma ^{2}.$ 再次根据连续映射定理， ${\sqrt {S^{2}}}\;{\overset {p}{\to }}\;{\sqrt {\sigma ^{2}}}=\sigma$ （由于 $\sigma >0$ ）。因此，根据概率收敛的性质（我们假设 $\mu \neq 0$ ）再次， ${\frac {\sqrt {S^{2}}}{\overline {X}}}\;{\overset {p}{\to }}\;{\frac {\sigma }{\mu }}$ ，如预期的那样。

$\Box$

预备知识

统计学
点估计

区间估计

↑ 对于参数向量，它包含控制分布的所有参数。
↑ 当我们不知道它是参数向量还是单个参数时，我们将简单地使用 " $\theta$ "。如果我们知道它确实是参数向量，我们可以使用 $\theta$ 代替。
↑ 我们将在#估计量的性质部分讨论“良好”的一些标准。
↑ $\beta -\beta '={\big (}\max\{x_{1},\dotsc ,x_{n}\}+\beta -\max\{x_{1},\dotsc ,x_{n}\}{\big )}-\left(\max\{x_{1},\dotsc ,x_{n}\}+{\frac {\beta -\max\{x_{1},\dotsc ,x_{n}\}}{2}}\right)={\frac {\beta -\max\{x_{1},\dotsc ,x_{n}\}}{2}}>0$ 。因此， $\beta '<\beta$ 。
↑ 对于每个正整数 $r$ ， $m_{r}$ 总是存在，不像 $\mu _{r}$ 。
↑ “均匀”意味着方差相对于其他无偏估计量最小，在参数空间 $\Theta$ （即，对于 $\theta \in \Theta$ 的每个可能值）。也就是说，方差不仅仅是在 $\theta$ 的特定值上最小，而是在所有可能的 $\theta$ 值上。
↑ 这与最小值不同。对于下限，它只需要小于所有涉及的方差，而且可能没有方差实际上达到这个下限。然而，对于最小值，它必须是方差值之一。
↑ 注意，这是一个比 Rao-Blackwell 定理中结果更强的结果，后者只说明 $\operatorname {Var} (\varphi (T))\leq \operatorname {Var} (W)$ ，对于对应于 $\varphi (T)$ 的 $W$
↑ 实际上，我们知道 UMVUE 从前面的命题来看必须是唯一的。然而，在这个论证中，当我们证明 $\varphi (T)$ 是 UMVUE 时，我们也自动地证明了它是唯一的。

[1] 对于参数向量，它包含控制分布的所有参数。

[2] 当我们不知道它是参数向量还是单个参数时，我们将简单地使用 " $\theta$ "。如果我们知道它确实是参数向量，我们可以使用 $\theta$ 代替。

[3] 我们将在#估计量的性质部分讨论“良好”的一些标准。

[4] $\beta -\beta '={\big (}\max\{x_{1},\dotsc ,x_{n}\}+\beta -\max\{x_{1},\dotsc ,x_{n}\}{\big )}-\left(\max\{x_{1},\dotsc ,x_{n}\}+{\frac {\beta -\max\{x_{1},\dotsc ,x_{n}\}}{2}}\right)={\frac {\beta -\max\{x_{1},\dotsc ,x_{n}\}}{2}}>0$ 。因此， $\beta '<\beta$ 。

[5] 对于每个正整数 $r$ ， $m_{r}$ 总是存在，不像 $\mu _{r}$ 。

[6] “均匀”意味着方差相对于其他无偏估计量最小，在参数空间 $\Theta$ （即，对于 $\theta \in \Theta$ 的每个可能值）。也就是说，方差不仅仅是在 $\theta$ 的特定值上最小，而是在所有可能的 $\theta$ 值上。

[7] 这与最小值不同。对于下限，它只需要小于所有涉及的方差，而且可能没有方差实际上达到这个下限。然而，对于最小值，它必须是方差值之一。

[8] 注意，这是一个比 Rao-Blackwell 定理中结果更强的结果，后者只说明 $\operatorname {Var} (\varphi (T))\leq \operatorname {Var} (W)$ ，对于对应于 $\varphi (T)$ 的 $W$

[9] 实际上，我们知道 UMVUE 从前面的命题来看必须是唯一的。然而，在这个论证中，当我们证明 $\varphi (T)$ 是 UMVUE 时，我们也自动地证明了它是唯一的。

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]