跳转到内容

统计学/点估计

来自 Wikibooks,开放世界中的开放书籍

通常,来自随机实验的随机变量假设服从某个具有未知(但固定)参数(向量)[1] [2] 是一个正整数,其值取决于分布)的分布,取值范围为集合 ,称为参数空间。

备注。

  • 频率统计学(此处讨论的上下文)中,参数被视为固定的。
  • 另一方面,在贝叶斯统计学的上下文中,参数被视为随机变量

例如,假设随机变量被假设服从正态分布。那么,在这种情况下,参数向量是未知的,参数空间。通常,通过某些方法估计这些未知参数来“理解”随机变量更有帮助。我们希望确保估计足够[3],以便理解更准确。

直观地说,随机样本的(实现)应该是有用的。实际上,本章介绍的估计量在某种意义上都是基于随机样本的,这就是点估计的含义。更准确地说,让我们定义点估计点估计值

定义。(点估计)点估计是一个使用统计量的值来给出未知参数的单一值估计(可以理解为一个)的过程。

备注。

  • 回想一下,统计量是随机样本的函数。
  • 我们将未知参数称为总体参数(因为与参数相对应的基础分布称为总体)。
  • 统计量称为点估计量,其实现值称为点估计值
  • 点估计量的符号通常带有
  • 估计将与区间估计形成对比,区间估计使用统计量的值来估计未知参数的区间可能值。

示例. 假设 是从正态分布 中抽取的 个随机样本。

  • 我们可以使用 统计量 来直观地估计 被称为 点估计量,其实现值 被称为 点估计
  • 或者,我们可以简单地使用统计量 (尽管它不涉及 ,但它仍然可以被视为 的函数)来估计 。也就是说,我们使用正态分布的第一个随机样本的值作为该分布均值的点估计!直观地说,这种估计量似乎“很糟糕”。
  • 这种仅直接取一个随机样本的估计量称为 单观测估计量
  • 我们稍后将讨论如何评估点估计量的“好坏”。

接下来,我们将介绍两个著名的点估计量,它们实际上“很好”,即 最大似然估计量矩估计量

最大似然估计量 (MLE)

[编辑 | 编辑源代码]

顾名思义,这种估计量是 最大化某种“似然性”的估计量。现在,我们想知道为了以“良好”的方式估计未知参数(复数),应该最大化什么样的“似然性”。此外,如引言部分所述,估计量在某种意义上是基于随机样本的。因此,这种“似然性”也应该在某种意义上基于随机样本。

为了激发最大似然估计量的定义,请考虑以下示例。

示例. 在一个随机实验中,一枚(公平或不公平)硬币被抛掷一次。设随机变量 如果出现正面,则为 否则。那么, 的概率质量函数为 ,其中未知参数 表示出现正面的概率,并且

现在,假设你得到一个随机样本,通过抛掷硬币次独立试验(这种随机样本称为独立随机样本,因为所涉及的随机变量是独立的),对应的实现值为。那么,对于,即随机样本恰好具有这些实现值的概率为

备注。

  • 关于符号的说明:你可能会注意到在的概率质量函数中有一个额外的""。这种符号表示概率质量函数是参数值为的”。它被包含在内是为了强调我们所指的参数值。
  • 一般来说,我们用表示参数值为可以是向量)的概率质量函数/概率密度函数。

  • 对于相同的含义,存在一些备选的记号:
  • 类似地,我们也有类似的记号,例如 ,表示事件发生的概率,参数值为。(通常使用第一个记号:。)
  • 对于均值、方差、协方差等,我们也有类似的记号,例如

直观地,对于这些特定的实现(固定的),我们希望找到一个的值,使该概率最大化,即使获得的实现成为“最有可能”或“似然最大”的实现。现在,让我们正式定义与最大似然估计相关的术语。

定义。(似然函数)设 是一个具有联合概率质量函数(pmf)或概率密度函数(pdf) 的随机样本,参数(向量) 是参数空间)。假设 是随机样本 的对应实现。那么,似然函数,记为,是函数 是一个变量, 是固定的)。

备注。

  • 为了简便,我们可以使用符号 代替。有时,为了方便起见,我们也可能只写“”。

  • 当我们将替换为时,得到的“似然函数”就变成了一个随机变量,我们用表示它。
  • 似然函数与联合概率质量函数或概率密度函数本身形成对比,在联合概率质量函数或概率密度函数中,是固定的,而是变量。
  • 当随机样本来自离散分布时,似然函数的值就是参数向量下概率。也就是说,获得这个特定实现的精确概率。
  • 当随机样本来自连续分布时,似然函数的值不是概率。相反,它只是联合概率密度函数在处的取值(可能大于1)。但是,该值仍然可以用来“反映”获得“非常接近”这个特定实现的概率,其中概率可以通过对周围“非常小”区域内的联合概率密度函数进行积分来获得。
  • 似然函数的自然对数,(或有时为),称为对数似然函数
  • 请注意,似然函数的“表达式”实际上与联合概率密度函数的表达式相同,只是输入不同。因此,人们仍然可以对似然函数关于进行积分/求和(在某种意义上,在这种情况下,将似然函数转换为联合概率密度函数/概率质量函数),就像它是联合概率密度函数/概率质量函数一样,以获得概率。

定义.(最大似然估计)给定一个似然函数,参数最大似然估计 是一个值,在这个值处最大化

备注。

  • 最大似然估计量(MLE)是(通过将中的“”替换为“”而得到)。
  • 在其他一些地方,根据上下文,缩写 MLE 也可能表示最大似然估计。但是,在这里我们仅在讨论最大似然估计量时使用缩写 MLE。
  • 由于(自然对数函数的定义域是所有实数的集合),自然对数函数是严格单调递增的,即输入越大,输出越大。因此,当我们找到一个值,使得最大化时,在相同的值处也最大化。

现在,让我们找到之前抛硬币示例中未知参数 的 MLE。

示例.(回顾激励示例)回想一下,我们使用抛硬币的例子来激发最大似然估计。服从伯努利分布,其成功概率为的概率质量函数为是从该分布中抽取的随机样本。

  • 似然函数联合概率质量函数(pmf)。

  • 因此,对数似然函数

  • 为了找到对数似然函数的最大值,我们可以使用微积分中学习的导数检验。对 关于 求导,得到

  • 为了找到 的临界点,我们令(我们有)。
  • 为了验证 实际上在 处取得最大值(而不是最小值),我们需要进行导数检验。在本例中,我们使用一阶导数检验。

  • 我们可以看到,当时,,这使得,因此。另一方面,当时,这使得,因此。结果,我们可以得出结论,处取得最大值。因此,的最大似然估计是(而不是,后者是最大似然估计值!)。
Clipboard

练习。 使用二阶导数检验来验证处取得最大值。

解答
  • 由于,其中分子为负,分母为正。因此,。根据二阶导数检验,这意味着处取得最大值。


有时,在求解参数的最大似然估计时,会对参数施加约束。在这种情况下,参数的最大似然估计称为受限最大似然估计。我们将在以下示例中说明这一点。

示例: 继续前面抛硬币的例子。假设对施加约束,其中。在这种情况下,求的最大似然估计。

解:关于推导似然函数和对数似然函数的步骤,在这种情况下是相同的。在没有限制的情况下,的最大似然估计是。现在,在存在限制的情况下,的最大似然估计为,仅当时(我们始终有,因为)。

If (and thus ), even though is maximized at , we cannot set the MLE to be due to the restriction on : . Under this case, this means when (we have when from previous example), i.e., is strictly increasing when . Thus, is maximized when with the restriction. As a result, the MLE of is (the MLE can be a constant, which can still be regarded as a function of ).

因此, 的最大似然估计可以写成一个分段函数:,或者可以写成

Clipboard

练习。 时,求 的最大似然估计。

解答
  • 时,由于存在限制,我们不能将最大似然估计设置为。在这种情况下,我们知道当 时,,即当 时, 严格递减。因此, 处取得最大值,因此 的最大似然估计为

  • 时,我们可以将最大似然估计设置为,此时 最大化,因此 是在这种情况下 的最大似然估计。
  • 因此, 的最大似然估计是


为了找到最大似然估计,我们有时会使用导数检验以外的方法,并且不需要找到对数似然函数。让我们在下面的例子中说明这一点。

示例: 是来自均匀分布 的一个随机样本。求 的最大似然估计。

解: 均匀分布的概率密度函数为。因此,似然函数为

为了使达到最大值,首先,我们需要确保对于每个,都有,这样似然函数中指示函数的乘积才不为零(在这种情况下,值实际上为1)。除此之外,由于的严格递减函数(因为(我们有)),我们应该选择一个尽可能小的,使得,因此,尽可能大。

因此,我们应该选择一个尽可能小的,前提条件是对于每个,都有,这意味着(无论如何选择,总是成立)。由此可知,当的最大值时,达到最大值。因此,的最大似然估计是

Clipboard

练习。证明如果均匀分布变为,则的最大似然估计不存在。

解答

Proof. In this case, the constraint from the indicator functions become for each . With similar argument, for the MLE of , we should choose a that is as small as possible subject to this constraint, which means for each . However, in this case, we cannot set to be the maximum of , or else the constraint will not be satisfied and the likelihood function becomes zero due to the indicator function. Instead, we should set to be slightly greater than the maximum of , so that the constraint can still be satisifed, and is quite small. However, for each such , we can always chooses a smaller that still satisfies the constraint. For example, for each , the smaller beta, can be selected as [4]. Hence, we cannot find a minimum value of subject to this constraint. Thus, there is no maximum point for , and hence the MLE does not exist.



在下面的例子中,我们将找到参数向量的最大似然估计。

例。 为来自均值为 ,方差为 的正态分布的随机样本,。求 的最大似然估计。

:令 。似然函数为 ,因此对数似然函数为 。由于该函数是多元函数,我们可以使用多元微积分中的二阶偏导数检验来寻找最大值点。但是,在本例中,我们实际上不需要使用这种检验。相反,我们可以逐个固定变量,使函数成为一元函数,这样我们就可以使用一元函数的导数检验来寻找最大值点(在另一个变量固定的情况下)。

由于

此外,,它与 无关(这对我们使用这种方法很重要)并且

由于,根据一元函数的二阶导数检验, 处取得最大值,在任意固定的 的情况下。

另一方面,由于,因此(因为 )。

因此,根据二阶导数检验, 处取得最大值,在任何给定的固定 下。

因此,现在我们固定,因此我们有 处取得最大值,其中 是样本方差 的取值。现在,固定,并且我们知道 处取得最大值,对于每个固定的 都是如此,包括这个固定的。结果, 处取得最大值。因此, 的最大似然估计是

Clipboard

练习。

(a) 计算 处的 Hessian 矩阵的行列式,可以表示为

(b) 因此,使用二阶偏导数检验验证 的最大值点。


解答

(a) 首先,

因此,Hessian矩阵的行列式为

(b) 从(a)可知,Hessian矩阵的行列式为正。此外,。因此,根据二阶偏导数检验,处取得最大值。


Clipboard

练习。为来自速率参数为的指数分布的随机样本,其概率密度函数为,其中。证明的最大似然估计为

解答

证明。 似然函数为 。因此,对数似然函数为 。对对数似然函数关于 求导得到 。令导数等于零,得到 。还需要验证 处取得最大值。由于 ,这一点得到了验证。因此, 的最大似然估计为


示例。(最大似然估计的应用)假设你有一个盒子,里面有四个球,红色和黑色球的数量未知。现在,你从盒子里抽取三个球,发现你得到了两个红球和一个黑球。使用最大似然估计,估计盒子里红球和黑球的数量。

:根据抽取的球的颜色,我们知道盒子里至少有两个红球和至少一个黑球。这意味着盒子中要么有两个红球,要么有三个红球。设 为盒子里红球的数量。那么,盒子里黑球的数量为。参数 的可能取值为 2 和 3。

现在,我们比较当 时,从盒子里抽取三个球得到这种结果的概率。

  • 对于,概率为(考虑超几何分布的概率质量函数)。
  • 对于,概率为

因此, 的最大似然估计值为 3。因此,估计的红球数量为 3,黑球数量为 1。

Clipboard

练习。假设盒子现在包含 100 个球,红球和黑球的数量未知。现在,你从盒子里抽出 99 个球,发现你得到了 98 个红球和 1 个黑球。使用最大似然估计,估计盒子里红球和黑球的数量。

解答

类似地,盒子中至少有 98 个红球和 1 个黑球。我们使用与上述示例相同的符号。那么,黑球的数量为,参数 的可能取值为 98 和 99。

  • 对于,概率为
  • 对于,概率为

因此,的最大似然估计值为99。因此,红球的估计数量为99,黑球的估计数量为1。

备注。

  • 在这种情况下,两个可能值的概率差异变得更大。
  • 直观地讲,当你得到这样的抽取结果时,你会认为盒子里面不太可能有两个黑球,也就是说,没有抽到的球实际上是黑色的,并且你以某种方式抽出了所有的红球,但没有抽到黑球。




矩估计法 (MME)

[编辑 | 编辑源代码]

对于最大似然估计,我们需要利用似然函数,该函数来自分布中随机样本的联合概率质量函数或概率密度函数。然而,在实践中我们可能并不知道分布的概率质量函数或概率密度函数的确切形式。相反,我们可能只知道关于分布的一些信息,例如均值、方差和一些矩(阶随机变量的矩为,为了简单起见,我们将其表示为)。这些矩通常包含关于未知参数的信息。例如,对于正态分布,我们知道。因此,当我们想要估计参数时,可以通过估计矩来实现。

现在,我们想知道如何估计矩。我们令样本矩[5],其中是独立同分布的。根据大数定律(假设条件满足),我们有

  • (这可以通过在大数定律中将“”替换为“”来观察,那么条件仍然满足,因此我们仍然可以应用大数定律)

通常情况下,我们有,因为在弱大数定律中用替换后,条件仍然满足。

基于这些结果,我们可以使用第个样本矩来估计第阶矩,当很大时,这种估计会“更好”。例如,在上面正态分布的例子中,我们可以用估计,用估计,这些估计量实际上被称为矩估计法

更准确地说,我们给出矩估计法的定义如下:

定义。(矩估计法)设 是来自具有概率密度函数或概率质量函数 的分布的一个随机样本。将 个矩,例如 ,分别写成 的函数:。那么,矩估计量(MME),分别为 ,由以下方程组(以 关于 的形式给出,对应于 个矩 的解给出)得到以下方程组:

备注。

  • 当存在个未知参数时,我们需要解一个包含个方程的方程组,其中涉及个样本矩。
  • 通常,我们根据定义选择前个矩作为这个矩。但这并非必要,我们可以选择其他的矩,包括分数阶矩(例如,在这种情况下我们使用)。
  • 因此,矩估计法唯一。

示例。是从正态分布中抽取的随机样本。求的矩估计。

解法:首先,有两个未知参数。因此,我们需要求解一个包含2个样本矩和2个矩的2元方程组。由于,考虑以下方程组: 代入 ,得到 。因此, 的矩估计为 的矩估计为

备注。

  • 我们可以看到,求 的矩估计的过程比求 的最大似然估计要容易得多。这是因为在这种情况下,一阶矩和二阶矩关于参数的表达式很简单。但是,当表达式更复杂时,求参数的矩估计可能会变得相当复杂。

例。 为来自速率参数为 的指数分布的随机样本。求 的矩估计 (MME),并将其与 的最大似然估计 (MLE) 进行比较。

: 由于 ,考虑以下方程:。然后我们有 。因此, 的矩估计为 ,这与 的最大似然估计相同。

Clipboard

练习。 为来自均匀分布 的随机样本。证明 的矩估计分别为

解答

Proof. Since and , consider the following system of equations: From , we have . Substituting it into , we have Solving this equation by quadratic formula, we get .

。然而,根据均匀分布的定义,我们需要有,因此这种情况被拒绝。

,满足均匀分布的定义。

因此,我们得到了期望的结果。


估计量的性质

[编辑 | 编辑源代码]

在本节中,我们将介绍一些用于评估点估计量“好坏”的标准,即无偏性有效性一致性

无偏性

[编辑 | 编辑源代码]

对于成为参数的“良好”估计量,的一个理想特性是其期望值等于参数的值,或者至少接近该值。正因为如此,我们引入了偏差这一概念,来衡量的均值与的接近程度。

定义。(偏差)估计量偏差

我们还将定义一些与偏差相关的术语。

定义. ((无)偏估计量) 估计量 是参数 的一个无偏估计量,如果 。否则,该估计量称为有偏估计量

定义. (渐近无偏估计量) 估计量 是参数 的一个渐近无偏估计量,如果 ,其中 是样本量。

备注。

  • 无偏估计量必须是渐近无偏估计量,但反之不成立,即渐近无偏估计量可能不是无偏估计量。因此,有偏估计量也可能是渐近无偏估计量。
  • 当我们根据无偏性讨论估计量的优劣时,无偏估计量优于渐近无偏估计量,渐近无偏估计量优于有偏估计量。
  • 然而,除了无偏性之外,还有其他评估估计量优劣的标准,因此,当我们也考虑其他标准时,有偏估计量在总体上可能比无偏估计量“更好”。

示例. 为来自伯努利分布的随机样本,其成功概率为 。证明 的最大似然估计 (MLE) 的无偏估计量。

证明. 由于 ,结果成立。

Clipboard

练习。 假设伯努利分布被替换为具有次试验和成功概率的二项分布。证明的有偏估计量。修改该估计量,使其成为的无偏估计量。

解答

证明。 由于的有偏估计量。

我们可以将该估计量修改为,则其均值为。或者,我们可以选择估计量为),其均值也是(其他均值为的估计量也是可以的)。


示例。 为来自正态分布 的一个随机样本。证明 的最大似然估计量 的无偏估计量,以及 的最大似然估计量 的一个渐近无偏估计量。

证明。 首先,由于 的无偏估计量。

On the other hand, Thus, , as desired.

Clipboard

练习。 修改 的估计量,使其成为无偏估计量。

解答

该估计量可以修改为


我们已经讨论了如何评估估计量的无偏性。现在,如果我们有两个无偏估计量,,我们应该如何比较它们的好坏?如果我们只从无偏性的角度比较它们,那么它们的好坏是相同的。因此,在这种情况下,我们需要另一个标准。一种可能的方法是比较它们的方差,方差较小的那个更好,因为平均而言,该估计量与其均值的偏差较小,而根据无偏估计量的定义,其均值就是未知参数的值,因此方差较小的那个在某种偏差意义上更准确。实际上,无偏估计量仍然可能具有较大的方差,从而与其均值产生很大的偏差。这样的估计量是无偏的,因为正偏差和负偏差在某种程度上相互抵消。这就是效率的思想。

定义。(效率)假设 是未知参数 的两个无偏估计量。 相对 效率。如果 ,那么我们说相对更有效

备注。

  • 由于,具有较小方差的估计量相对于具有较大方差的估计量来说,效率更高。
  • 通常情况下,方差应该是非零的,因此在正常情况下应定义效率。
  • 有时,它也被称为相对效率,因为效率描述了 等于“多少”个
  • 有人可能会问,为什么我们在定义中使用方差的比值来比较方差,而不是使用方差的差值。一个可能的原因是,方差的比值没有任何单位(如果存在,方差的单位相互抵消),但方差的差值可能会有单位。此外,使用方差的比值允许我们对从不同方差计算出的不同效率进行数值比较

实际上,对于无偏估计量的方差,由于无偏估计量的均值是未知参数,它衡量了与偏差的平方值的均值,并且我们对此偏差有一个特定的术语,即均方误差 (MSE)。

定义。(均方误差)假设 是参数 的一个估计量。均方误差 (MSE) 为

备注。

  • 根据此定义,误差平方均值,因此得名均方误差

注意,在 MSE 的定义中,我们没有规定 必须是无偏估计量。因此,定义中的 可能是存在偏差的。我们已经提到,当 是无偏的时,它的方差实际上就是它的 MSE。在下文中,我们将给出 之间更一般的关系,而不仅仅是针对无偏估计量。

命题. (均方误差与方差之间的关系)如果 存在,则

Proof. By definition, we have and . From these, we are motivated to write as desired.

示例.)是从 中抽取的随机样本。

(a)证明单观测估计量 的无偏估计量。

(b)分别计算 的 MSE。

(c)在无偏性和效率方面,哪个估计量 的更好估计量?

解答:

(a) 由于,因此结果成立。

(b) ,以及

(c) 由于 相对而言比 更有效。由于 都是 的无偏估计量,我们得出结论:就无偏性和有效性而言, 的一个更好的估计量。

Clipboard

练习。 除了示例中样本量为 的随机样本外,假设我们再取一个样本量为 的随机样本。令 分别表示样本量为 的样本的样本均值。

(a) 计算

(b) 说明样本量 满足的条件,在此条件下, 相对于 更有效。


解答

(a) 由于 (来自示例),并且 (通过与示例中类似的论证),

(b) 由于 ,条件是

备注。

  • 这表明,样本量更大的样本均值相对于样本量较小的样本均值更有效。



命题。 当且仅当

证明。

  • “如果”部分很简单。假设。那么,
  • “仅当”部分:我们可以使用逆否证法,即证明如果 ,那么
  • 情况 1:当时,这意味着,因为方差是非负的。此外,。由此可知,即 MSE 不等于零。

  • 案例 2:当 时,这意味着 。此外,。由此可得 ,即 MSE 不等于零。

备注。

  • 因此,如果我们知道 ,那么我们就知道 ,即 是一个渐近无偏估计量(此外 )( 可能 是一个无偏估计量)。

一致最小方差无偏估计量

[编辑 | 编辑源代码]

现在,我们知道无偏估计量的方差越小,其效率(和“更好”)就越高。因此,我们自然想知道什么是有效的(即“最佳”)无偏估计量,即方差最小的无偏估计量。对于这种无偏估计量,我们有一个特定的名称,即一致最小方差无偏估计量 (UMVUE) [6]。更准确地说,我们对 UMVUE 有以下定义

定义。(一致最小方差无偏估计量)一致最小方差无偏估计量 (UMVUE) 是在所有无偏估计量中具有最小方差的无偏估计量。

事实上,UMVUE 是唯一的,即在所有无偏估计量中,只有一个无偏估计量具有最小方差,我们将在下面证明这一点。

命题.(UMVUE 的唯一性)如果是参数的函数的UMVUE,则是唯一的。

证明.假设的UMVUE,并且的另一个UMVUE。定义估计量。由于的无偏估计量。

Now, we consider the variance of . Thus, we now have either or . If the former is true, then is not an UMVUE of by definition, since we can find another unbiased estimator, namely , with smaller variance than it. Hence, we must have the latter, i.e., This implies when we apply the covariance inequality, the equality holds, i.e., which means is increasing linearly with , i.e., we can write for some constants and .

现在,我们考虑协方差另一方面,由于协方差不等式中存在等号,并且(因为它们都是UMVUE),因此,我们有

接下来需要证明,以证明,从而得出结论唯一的

从上面,我们现在有,如预期的那样。

备注。

  • 因此,当我们能够找到一个UMVUE时,它就是唯一的,并且任何其他可能的无偏估计量的方差都严格大于UMVUE的方差。
克拉美-罗下界
[编辑 | 编辑源代码]

在不使用一些结果的情况下,确定UMVUE是相当困难的,因为存在许多(甚至可能是无限多个)可能的无偏估计量,因此很难确保一个特定的无偏估计量相对于所有其他可能的无偏估计量更有效。

因此,我们将介绍一些有助于我们找到UMVUE的方法。对于第一种方法,我们找到所有可能的无偏估计量的方差的下界[7]。在获得这样的下界后,如果我们能找到一个方差正好等于下界的无偏估计量,那么该下界就是方差的最小值,因此根据定义,这样的无偏估计量就是UMVUE。

备注。

  • 存在许多可能的下界,但是当界限越大时,它就越接近方差的实际最小值,因此“更好”。
  • 即使无偏估计量的方差没有达到下界,它仍然可以是UMVUE。

找到这样的下界的一种常见方法是使用克拉美-罗下界(CRLB),并且我们通过克拉美-罗不等式得到CRLB。在陈述不等式之前,让我们定义一些相关的术语。

定义。(费舍尔信息)关于参数且样本量为费舍尔信息,其中是似然函数的对数(作为随机变量)。

备注。

  • 称为得分函数,记为
  • ”可能是也可能不是一个参数向量。如果它只是一个单个参数(通常情况下),那么它与“”相同。我们使用“”而不是“”是为了强调中的“”指的是中的“”。
  • 可以定义“关于参数向量的费歇尔信息”,但在这种情况下,费歇尔信息采用矩阵的形式而不是单个数字,它被称为费歇尔信息矩阵。然而,由于它比较复杂,我们这里不讨论它。
  • 由于得分函数的期望值为

并且,在允许导数和积分交换的一些正则条件下,这等于 ,关于 的费雪信息也是得分函数的方差,即

对于允许导数和积分交换的正则条件,它们包括

  1. 所涉及的偏导数应该存在,即所涉及函数的(自然对数)是可微的
  2. 所涉及的积分应该是可微的
  3. 支持域不依赖于所涉及的参数

我们有一些结果可以帮助我们计算费雪信息。

命题. 为来自具有概率密度函数或概率质量函数 的分布的随机样本。此外,令 ,为样本量为一的关于 的Fisher信息。然后,在允许导数和积分交换的一些正则性条件下,

证明。

命题。 在允许导数和积分交换的一些正则条件下,

Proof. Now, it suffices to prove that , which is true since

备注。

  • 这个命题非常有用,因为在对 进行偏微分后,许多 很可能会消失,从而使期望值的计算变得更容易。

定理. (克拉美-拉奥不等式) 令 为来自某个分布的随机样本,并令 的一个函数)的无偏估计量。然后,在允许交换导数和积分的一些正则性条件下,

Proof. Since is an unbiased estimator of , we have by definition . By definition of expectation, we have where is the likelihood function. Thus, Consider the covariance inequality: . We have ( by remark about Fisher information)

备注。

  • 称为 克拉美-拉奥下界 (CRLB)。
  • 时,这意味着 的无偏估计量,因为 ,CRLB 变为

示例. 为来自正态分布 的随机样本。证明 的最大似然估计量 的一致最小方差无偏估计量 (UMVUE)。

证明。 首先,我们可以看到在这种情况下满足正则条件。因此,我们可以考虑的CRLB,如下所示。由于 我们有 因此,的CRLB为

另一方面, 的方差是 (这在前面的例子中已经展示过),它等于 的 CRLB。由此可知, 的一个 UMVUE。

Clipboard

练习。 一名学生声称 的另一个 UMVUE,因为 ,也等于 的 CRLB。这个说法正确吗?为什么?

解答

回想一下,UMVUE 是一个无偏估计量

这个说法是错误的,因为 通常不是一个无偏估计量。这是因为 ,除非 。但如果 ,那么这个估计量就简化为 ,这与 完全相同。因此,在这种情况下,该估计量不是另一个 UMVUE。


有时,我们无法使用 CRLB 方法来寻找 UMVUE,因为

  • 正则条件可能不满足,因此我们无法使用克拉美-拉奥不等式,以及
  • 无偏估计量的方差可能不等于 CRLB,但我们不能由此得出它不是 UMVUE 的结论,因为 CRLB 可能根本无法达到,并且所有无偏估计量中最小的方差实际上是该估计量的方差,它大于 CRLB。

我们将在下面举例说明这两种情况。

示例。 为来自均匀分布 的一个随机样本。如果我们想要找到 的UMVUE,我们不能使用Cramer-Rao不等式来找到它,因为支持 取决于参数

示例。 为来自正态分布 的一个随机样本。已知在这种情况下,,其中 是具有 自由度的卡方分布,其方差为。计算,以及 的CRLB。

:根据给定信息,我们有 因此,

另一方面,由于 的 CRLB 为

备注。

  • 的无偏估计量,因为

  • 我们可以观察到大于CRLB。但这是否意味着不是的UMVUE?我们不知道,因为我们不确定是否存在另一个无偏估计量,其方差小于,并且CRLB可能无法达到。

由于CRLB有时可以达到,有时无法达到,因此很自然地会提出这样的问题:何时可以达到CRLB。换句话说,我们想知道CRLB的可达条件,这些条件在以下推论中给出。

推论.(CRLB的可达条件)令是从某个分布中抽取的随机样本,并令的无偏估计量。假设Cramer-Rao不等式的正则条件满足。则CRLB可以达到,即存在某个使得,当且仅当,其中是得分函数,而是一个常数。

Proof. Considering the proof for Cramer-Rao inequality, we have We can write as (by result about covariance). Also, (by result about variance). Thus, we have where is the correlation coefficient between two random variables. This means increases or decreases linearly with , i.e., for some constants . Now, it suffices to show that the constant is actually zero.

我们知道(因为 的无偏估计量),并且(来自关于Fisher信息的备注)。因此,在两边应用期望得到 然后,结果就出来了。

备注。

  • 考虑到证明,我们知道,如果满足这样的可达条件,则无偏估计量 的方差等于 的CRLB,即该估计量是 的UMVUE。

示例。 我们已经证明,来自正态分布 的随机样本 的对数似然函数是。证明 的CRLB 使用CRLB的可达条件是可达的。

证明。 分数函数为 由于我们有 (它是 的无偏估计量),CRLB 的可达条件得到满足(在这种情况下,常数“" 为 ),因此 的 CRLB 是可达的。


备注。

  • 事实上,在证明之前,我们就知道 的 CRLB 是可达的,因为我们已经找到了 的一个无偏估计量,即 ,其方差正好等于之前得到的 CRLB。

示例。 延续前面的例子。证明 的 CRLB **不能** 使用 CRLB 的可达条件得到。

证明。 在这种情况下,得分函数为 取常数 ,则达到CRLB的无偏估计量 的一个潜在候选者为 。然而,我们注意到 是不可计算的,因为 是未知的。因此,不存在某个 使得 ,其中 是某个常数,并且


备注。

  • 即使我们知道的CRLB不可达,我们仍然不知道是否为UMVUE,因为可能存在一些具有更小方差(但未达到CRLB)的无偏估计量。

我们之前讨论过MLE,MLE实际上是渐近的(即,当样本量)“最佳选择”,根据以下定理。

定理。假设是来自某个分布的未知参数的MLE。那么,在某些正则条件下,当时,

Proof. Partial proof: we consider the Taylor series of order 2 for , and we will get where is between and . Since is the MLE of , from the derivative test, we know that (we apply regularity condition to ensure the existence of this derivative). Hence, we have Since by central limit theorem, Furthermore, we apply the weak law of large number to show that It can be shown in a quite complicated way (and using regularity conditions) that Considering and , using property of convergence in probability, we have Considering and , and using Slutsky's theorem, we have where , and hence . It follows that This means and thus as desired.

备注。

  • 等价地,我们可以写成。因此,的MLE的方差渐近地达到的CRLB。这意味着的MLE渐近地是的UMVUE。
  • 正则条件基本上类似于Cramer-Rao不等式中提到的正则条件。

由于在某些情况下我们无法使用CRLB来找到UMVUE,因此我们将在下面介绍另一种找到UMVUE的方法,该方法使用充分性完备性的概念。

充分性
[编辑 | 编辑源代码]

直观地讲,一个充分统计量 ,它是给定随机样本的函数,包含了估计未知参数(向量)所需的所有信息。因此,统计量 本身对于估计未知参数(向量) 是“充分”的。

正式地,我们可以如下定义和描述充分统计量

定义.(充分统计量)统计量 是未知参数(向量) 的一个充分统计量,如果随机样本条件分布 给定 依赖于

备注。

  • 该定义可以表示为

其中 的联合概率密度函数或概率质量函数。
  • 该等式意味着 给定(的)值的联合条件概率质量函数或概率密度函数与 给定(的)值,以及参数值 的联合条件概率质量函数或概率密度函数相同。

  • 这意味着即使提供了参数值,概率质量函数 (pmf) 或概率密度函数 (pdf) 也不会发生变化,这反过来意味着给定的值,的联合条件 pmf 或 pdf 实际上并不依赖于
  • 指的是 在实现之前,它是一个随机变量(随机性来自)。
  • 在实现之后,该等式仍然成立(修改为)。

示例。考虑来自的随机样本。可以证明的充分统计量,但不是的充分统计量。

这可以通过应用定义来证明。但是,我们稍后将提供一种替代且通常更方便的方法来检查统计量的充分性,并找到充分统计量。我们将在本文中非正式地解释为什么它是正确的。

  • 包含了分布集中趋势的信息,这应该是估计均值所需的信息。因此,它是的充分统计量。
  • 然而,不包含分布离散程度的信息(它只说明了“中心位置”,但对于特定的中心位置,离散程度可能大不相同),这应该是估计方差所需的信息。因此,它不是的充分统计量。

备注。

  • 由此,我们也可以预期充分统计量不是唯一的,因为例如也应该包含集中趋势的信息(因为我们可以将其除以2得到的值,从而获得信息)。
  • 事实上,一般来说,给定的充分统计量,则也是的充分统计量,前提是是一个双射函数(也称为可逆函数、一一对应或双射),以便其逆函数存在。

我们将在下面正式陈述上述关于充分统计量变换的说明。

命题。是未知参数(向量)的充分统计量。则,也是的充分统计量,对于每个双射函数

现在,我们讨论一个定理,它可以帮助我们检查统计量的充分性,即(Fisher-Neyman)因子分解定理

定理.(因子分解定理)设 是随机样本 的联合概率密度函数或概率质量函数。统计量充分统计量 当且仅当存在函数 使得 其中通过 依赖于,并且 依赖于

证明。 由于连续情况下的证明相当复杂,我们只给出离散情况下的证明。为简化表达,令 , , , 以及 ,因此根据这些可以得到不同类型的概率质量函数的符号。根据定义,。此外,我们有 。因此,我们可以写成

“仅当” () 方向:假设 是充分统计量。然后,我们选择 ,根据充分统计量的定义,它不依赖于 。现在需要验证对于这个选择,方程是否成立。

因此,

"if" () direction: Assume we can write . Then, Now, we aim to show that does not depend on , which means is a sufficient statistic for . We have which does not depend on , as desired.

备注。

  • 也可能是一个常数,显然不依赖于

示例. 考虑来自 的一个随机样本 。找到 的充分统计量。

Solution: The joint pdf of is Notice that the function depends on only through , so we can conclude that .

备注。

  • 我们也可以将 写成 的充分统计量。
  • 直观地说,这是因为后者也包含相同的统计量,因此包含相同的信息。

  • 或者,我们可以将函数定义为,这是一个双射函数,因此也是的充分统计量。
  • 我们需要从中分离出,因为对于函数,它不能依赖于。因此,我们不能在函数的定义中包含
  • 在这种情况下,定义函数的方法有很多。


对于一些“良好”的分布,它们属于指数族,可以使用另一种替代方法更容易且更方便地找到充分统计量。这种方法之所以有效,是因为这些分布的pdf或pmf具有“良好”的形式,其特征如下

定义。(指数族分布)随机变量的分布属于指数族分布,如果的概率密度函数或概率质量函数具有以下形式: 其中,对于某些函数)。

备注。

  • 的值取决于未知参数的数量。
  • 请注意,可以为1,在这种情况下,“”只是一个单一参数。
  • 指数族分布包含许多常见的分布,例如正态分布、指数分布、伽马分布、卡方分布、贝塔分布、伯努利分布、泊松分布、几何分布等。
  • 然而,一些常见的分布不属于指数族分布,例如学生t分布、F分布、柯西分布和超几何分布。

示例。 正态分布属于指数族,其中 (因此在这种情况下“”为 2),因为它的概率密度函数可以表示为

定理.(指数族的充分统计量)设 是来自指数族分布的一个随机样本,其概率密度函数或概率质量函数为 ,其中 。那么, 的一个充分统计量

Proof. Since the distribution belongs to the exponential family, the joint pdf or pmf of can be expressed as From here, for applying the factorization theorem, we can identify the purple part of the function as "", and the red part of the function as "". We can notice that the red part of the function depends on only through . The result follows.

例. 考虑来自 的一个随机样本 。利用寻找指数族充分统计量的结果,证明 的充分统计量是

证明. 从前面的例子中,我们已经证明正态分布属于指数族,并且从那里的表达式中,我们可以看出 的充分统计量是

由于,我们可以定义函数,可以证明这是一个双射函数。

因此,也是的充分统计量。


现在,我们将开始讨论充分统计量与UMVUE之间的关系。我们从Rao-Blackwell定理开始讨论。

定理.(Rao-Blackwell 定理)设 的任意无偏估计量,而 充分统计量。定义。那么, 的无偏估计量,并且

证明.假设 的任意无偏估计量,而 的充分统计量。

首先,我们证明 的无偏估计量。在证明无偏性之前,我们应该确保 实际上是一个估计量,即它是统计量,是随机样本的函数,并且需要独立于 (以便它可以计算):由于 是随机样本的函数,并且 是充分统计量,这使得给定 的条件分布 独立。此外, 的函数,因此也是随机样本的函数。

现在,我们证明 的无偏估计量:由于 的无偏估计量。

接下来,我们证明:根据全方差定律,我们有 如所愿。

备注。

  • 随机变量 是通过首先找到,然后用 替换 得到的。这里, 的实现。
  • 从Rao-Blackwell定理,我们知道 是比 更好的(或者至少是“相同质量”)效率意义上的估计量。请注意,该定理并没有说明 是效率意义上的最佳估计量(即UMVUE)。相反,它只说明 在效率意义上更好
  • 应用一次该定理后, 可以作为“ 的任意无偏估计量”,我们可以再次应用此定理,依此类推。这意味着,在多次应用此定理之后,我们得到的“” 将是UMVUE。

  • 我们可以将这个过程理解为不断“改进”无偏估计量,直到它成为最优的(在效率意义上),即它是一个UMVUE。
  • 由于UMVUE是唯一的,UMVUE必须是给定充分统计量的随机变量的条件期望,它是一个的函数。
  • 因此,我们现在可以将UMVUE的候选范围缩小到充分统计量的函数。

为了实际确定UMVUE,我们需要另一个定理,称为莱曼-谢菲定理,它基于Rao-Blackwell定理,并且需要完备性的概念。

完备性
[编辑 | 编辑源代码]

定义。(完备统计量)设是从具有参数(向量)的分布中抽取的随机样本,该参数位于参数空间中。统计量是一个完备统计量,如果对于每个 意味着对于每个

当随机样本来自指数族中的分布时,也可以很容易地找到完备统计量,类似于充分统计量的情况。

定理.(指数族的完备统计量)如果 是来自指数族分布的一个随机样本,其中未知参数(向量),则 是一个完备统计量,前提是参数空间 中包含一个开集.

证明.略。

备注。

  • 开集开区间的推广。实际上, 中的开集就是开区间
  • 直观地说,开集指的是这样的集合:对于集合中的每个点,该集合都包含所有足够接近该点的点。
  • 例如, 中的一条直线(可以被解释为一个集合)不是开集,因为对于直线上的每个点,直线不包含所有足够接近该点的点(有一些“上方”和“下方”的点不包含在集合中)。
  • 同样, 中的一个圆盘(平面中由圆包围的区域)不是开集,因为对于圆盘上的每个点,圆盘不包含所有足够接近该点的点(有一些“上方”和“下方”的点不包含在圆盘中)。
  • 根据前面关于指数族充分统计量的定理,我们知道 也是 的一个充分统计量,在满足这些条件的情况下。
  • 当一个统计量对于参数(向量) 是充分的,并且也是一个完备统计量时,我们称这样的统计量为完备充分统计量

定理. (莱曼-谢菲定理) 如果 的一个完备充分统计量,并且,则唯一UMVUE(以概率1)。

证明. 假设 的一个完备充分统计量,并且

由于 的充分统计量,我们可以应用Rao-Blackwell定理。根据Rao-Blackwell定理,如果 的任意无偏估计量,则 是另一个无偏估计量,其中

为了证明 的唯一UMVUE,我们将证明无论选择哪个 的无偏估计量,根据Rao-Blackwell定理(以概率1),我们都会得到相同。然后,对于所有可能的 的无偏估计量,都有(以概率1)[8],这意味着 是UMVUE,并且也是唯一的UMVUE,因为我们总是得到相同的 [9]

假设另一个 的无偏估计量()。根据Rao-Blackwell定理,存在一个无偏估计量),其中。由于 都是 的无偏估计量,对于每个,我们有。由于 是一个完备统计量,我们有,这意味着(概率为1),即在这种情况下,我们从Rao-Blackwell定理得到了相同的(概率为1)。

备注。

  • 该定理中的“”是的函数,我们从证明和Rao-Blackwell定理中知道,它实际上是,其中的任意无偏估计量。
  • 因此,当我们应用此定理时,只要我们能找到的一个函数(也许通过一些观察),使得,我们就知道的唯一UMVUE。此外,由于UMVUE的唯一性,实际上是,其中的任意无偏估计量。

  • 在一些简单的例子中,如上所述,我们可以通过一些观察找到。然而,在更复杂的情况下, 的显式形式可能并不直接明了,使得 。在这种情况下,我们需要找到 的无偏估计量,并计算 以得到 的显式形式。

示例. 考虑来自 的一个随机样本。令未知参数向量为

(a) 证明 的充分统计量,即 ,也是一个完备统计量。

(b) 因此,证明 分别是 的UMVUE。

解答:

(a)

证明。 我们只需要证明参数空间中包含一个开集。这是正确的,因为参数空间如果我们使用笛卡尔坐标系表示它,则是整个x轴上方的区域,因此包含一个开集。


(b)

证明。 因为(我们之前已经证明了这些),并且 分别是完备充分统计量(关于)和(关于)的函数,根据莱曼-谢菲定理,我们得到所需的结果。


备注。

  • 我们已经证明没有达到的CRLB,并且的CRLB实际上是不可达到的。因此,我们之前无法确定是否是的UMVUE。现在,我们知道实际上是的UMVUE,这得益于Lehmann-Scheffé定理。

示例。考虑来自伯努利分布的随机样本,其成功概率为,即,其概率质量函数为

(a) 找到的一个完备充分统计量

(b) 因此,找到的UMVUE。

(c) 证明的无偏估计量,并且的UMVUE。

解答

(a) 概率质量函数 (pmf) 。这意味着伯努利分布属于指数族。此外,参数空间 中包含一个开集。因此, 的完备充分统计量。

(b) 注意到 。因此,(它是 的函数)是 的UMVUE。

(c)

证明。 由于 的无偏估计量。

Now, we consider . We denote by . Then, this expectation becomes . In the following, we evaluate . Notice that follows the binomial distribution with trials with success probability , i.e., , and . Hence, Now, replacing by gives which is the UMVUE of , as desired.

Clipboard

练习。 我们能否使用 的CRLB找到 的UMVUE?如果可以,请用这种方法找到它。如果不行,请解释原因。

解答

不可以。这是因为对数似然函数不可微(仅当 时才具有非零值),因此费舍尔信息未定义。因此,CRLB 不存在。


Clipboard

练习。 考虑来自参数为 的泊松分布的随机样本 ,其概率质量函数(pmf)为

(a) 求 的完备充分统计量。

(b) 求 的UMVUE。


解答

(a) 该概率质量函数为 因此,泊松分布属于指数族,并且 的完备充分统计量为

(b) 令 。由于 ,我们有 因此, 的UMVUE 为 (它是 的函数)。


一致性

[编辑 | 编辑源代码]

在前面的章节中,我们讨论了 无偏性有效性。在本节中,我们将讨论另一个称为 一致性 的性质。

定义。(一致估计量) 是未知参数 一致估计量,如果

备注。

  • 根据概率收敛的定义, 表示 时,对于每个

命题。如果 是未知参数 的(渐近)无偏估计量,并且 时,则 一致估计量

Proof. Assume is an (asymptotically) unbiased estimator of an unknown parameter and as . Since is an (asymptotically) unbiased estimator of , we have (this is true for both asymptotically unbiased estimator and unbiased estimator of ). In addition to this, we have by assumption that . By definition of mean squared error, these imply that . Thus, as , we have by Chebyshov's inequality (notice that exist from above), for each , Since probability is nonnegative (), and this probability is less than or equal to an expression that tends to be 0 as , we conclude that this probability tends to be zero as . That is, is a consistent estimator of .

备注。

  • 单独的无偏性并不能蕴含一致性。

示例。 为来自 的一个随机样本。那么, 的无偏估计量,因为。但是,存在一些 使得,即 对于某些。由于 无关,这意味着 对于某些,这是正确的。因此, 不是 的一致估计量。

Clipboard

练习。

(a) 提出 的一个一致估计量,并证明它实际上是 的一致估计量(提示:考虑大数弱定律)。

(b) 提出变异系数(或相对标准差)coefficient of variation 的一个一致估计量(假设 ,以便其定义),并证明它实际上是 的一致估计量。(提示:考虑大数弱定律和概率收敛的性质。您可以使用正态分布具有有限四阶矩这一事实。)

解答

(a) 的一致估计量。

证明。 根据大数弱定律(注意正态分布的均值 和方差 是有限的),,如预期的那样。


(b) 的一致估计量。

证明。 根据大数弱定律(方差有限,四阶矩有限),。此外,根据连续映射定理,由于。因此,根据概率收敛的性质和样本方差的结果,再次根据连续映射定理,(由于)。因此,根据概率收敛的性质(我们假设)再次,,如预期的那样。




  1. 对于参数向量,它包含控制分布的所有参数。
  2. 当我们不知道它是参数向量还是只是一个参数时,我们将简单地使用“”。如果我们知道它确实是一个参数向量,我们可以使用来代替。
  3. 我们将在#估计量的性质部分讨论“好”的一些标准。
  4. . 因此,.
  5. 对于每个正整数 始终存在,不像
  6. “一致”表示与其他无偏估计量相比,方差最小,在参数空间 上(即,对于 的每个可能值)。也就是说,方差不仅对于 的特定值最小,而是对于 的所有可能值最小。
  7. 这与最小值不同。对于下界,它只需要小于所有相关的方差,并且可能不存在任何实际达到此下界的方差。但是,对于最小值,它必须是方差的值之一。
  8. 注意,这比 Rao-Blackwell 定理中的结果更强,后者仅说明 对于与 对应的 成立。
  9. 实际上,我们知道 UMVUE 根据之前的命题必须是唯一的。但是,在这个论证中,当我们证明 是 UMVUE 时,我们也自动证明了它是唯一的。
华夏公益教科书