跳至内容

统计学/点估计

来自维基教科书,开放书籍,开放世界

通常,随机变量 来自一个随机实验,被 假设 遵循某个分布,该分布有一个未知(但 固定)参数(向量)[1] [2] ( 是一个正整数,其值取决于分布),取值在一个称为参数空间的集合 中。

备注。

  • 频率统计学 的语境下(这里就是这种情况),参数被认为是 固定 的。
  • 另一方面,在 贝叶斯统计学 的语境下,参数被认为是 随机变量

例如,假设随机变量 被假设服从正态分布 。那么,在这种情况下,参数向量 是未知的,参数空间 。通常情况下,以某种方式 估计 这些未知参数很有用,以便更好地 "理解" 随机变量 。我们希望确保估计应该 "好"[3] 足够,这样理解才会更准确。

直观地说,随机样本 的(实现)应该是有用的。事实上,本章介绍的估计量在某种程度上都是基于随机样本的,这就是 点估计 的含义。为了更精确,让我们定义 点估计点估计

定义。 (点估计) 点估计 是使用 统计量 的值来给出未知参数的单值估计(可以解释为一个 )的过程。

备注。

  • 回想一下,统计量 是随机样本的函数。
  • 我们将未知参数称为 总体参数(因为与参数对应的底层分布称为 总体)。
  • 这个统计量称为点估计量,它的具体值称为点估计
  • 点估计量的符号通常带有
  • 估计与区间估计形成对比,区间估计使用统计量的值来估计未知参数的区间

示例。假设 是从正态分布 中抽取的 个随机样本。

  • 我们可以使用统计量 来估计,直观上, 被称为点估计量,它的具体值 被称为点估计
  • 或者,我们可以直接使用统计量(尽管它不包含,它仍然可以被视为 的函数)来估计。也就是说,我们使用正态分布的第一个随机样本的值作为分布均值的点估计!直观上,这种估计量似乎很“糟糕”。
  • 这种直接使用一个随机样本的估计量被称为单观测估计量
  • 我们将在后面讨论如何评估点估计量的好坏。

接下来,我们将介绍两个著名的点估计量,它们实际上是相当“好”的,即最大似然估计量矩估计量

最大似然估计量 (MLE)

[edit | edit source]

顾名思义,这个估计量是最大化某种“似然”的估计量。现在,我们想知道应该最大化什么“似然”来估计未知参数(以“好”的方式)。此外,正如引言中提到的,估计量在某种程度上基于随机样本。因此,这种“似然”也应该在某种程度上基于随机样本。

为了更好地理解最大似然估计量的定义,请考虑以下示例。

示例. 在一个随机实验中,一枚(公平或不公平)硬币被抛掷一次。令随机变量 如果出现正面,则为 否则。 那么, 的 pmf 是 ,其中未知参数 表示出现正面的概率,并且 .

现在,假设你得到了一个随机样本 通过将硬币抛掷 次独立地(这种随机样本被称为独立随机样本,因为所涉及的随机变量是独立的),相应的实现为 。 那么,,即随机样本恰好具有这些实现,的概率是

备注。

  • 符号说明: 你可能会注意到在的pmf中有一个额外的""。这种符号表示pmf是具有参数值的。它被包含进来是为了强调我们所指的参数值。
  • 一般来说,我们用表示具有参数值可以是向量)的pmf/pdf。
  • 一些其他符号具有相同的含义: .
  • 类似地,我们有类似的符号,例如,表示事件发生的概率,具有参数值。(使用第一个符号更常见:。)
  • 我们也有类似的符号表示均值、方差、协方差等,例如

直观地,对于这些特定的实现(固定),我们希望找到一个的值,使该概率最大化,即使所获得的实现成为“最可能”或“最大似然”的实现。现在,让我们正式定义与MLE相关的术语。

定义. (似然函数)设 是一个具有 联合 pmf 或 pdf 的随机样本,参数(向量)为 是参数空间)。假设 是随机样本 的对应实现。那么,似然函数,记为 ,是函数 是一个变量,而 是固定的)。

备注。

  • 为了简单起见,我们可以使用符号 来代替 。有时,为了方便,我们也可以只写“”。
  • 当我们用 代替 时,得到的“似然函数”就变成了一个随机变量,我们用 来表示。
  • 似然函数与联合概率质量函数或概率密度函数本身形成对比,其中 是固定的,而 是变量。
  • 当随机样本来自 离散 分布时,似然函数的值就是参数向量 处的概率 。也就是说,获得此特定实现的概率。
  • 当随机样本来自 连续 分布时,似然函数的值 不是 概率。相反,它只是联合概率密度函数在 处的取值(可以大于 1)。但是,该值仍然可以用来“反映”获得“非常接近”此特定实现的概率,而该概率可以通过在 周围的“非常小”区域内对联合概率密度函数进行积分来获得。
  • 似然函数的自然对数,(或有时为 )称为 对数似然函数
  • 请注意,似然函数的“表达式”实际上与联合概率密度函数的表达式相同,只是输入不同。因此,仍然可以对似然函数关于 进行积分/求和(从某种意义上说,这在某种程度上将似然函数更改为该上下文中联合概率密度函数/概率质量函数),就好像它是联合概率密度函数/概率质量函数以获得概率。

定义。(最大似然估计)给定 似然函数 ,参数 最大似然估计 是一个值 ,在该值处 最大化

备注。

  • 最大似然估计 (MLE) 是 (通过用“”替换 中得到)。
  • 在其他一些地方,缩写 MLE 也可能表示最大似然估计,具体取决于上下文。但是,在这里讨论最大似然 估计 时,我们只使用缩写 MLE。
  • 由于 (自然对数函数的定义域是所有 实数的集合),自然对数函数是严格递增的,即输入越大,输出越大。因此,当我们找到一个值,使 最大化时, 在相同的值上也 最大化。

现在,让我们找到前一个抛硬币例子中未知参数 的 MLE。

例子. (重温激励例子) 回想一下,我们用抛硬币的例子来激励最大似然估计。 服从以 为成功概率的伯努利分布。 的 pmf 是 是来自该分布的随机样本。

  • 似然函数 联合 pmf,

  • 因此,对数似然函数

  • 为了找到对数似然函数的最大值,我们可以使用微积分中学习的导数测试。对 关于 求导得到

  • 为了找到 的临界点,我们令 (我们有 )。
  • 为了验证 实际上在 处取得 最大值 (而不是最小值),我们需要进行导数检验。在本例中,我们使用一阶导数检验。
  • 我们可以看到,当时,,这使得,因此。另一方面,当时,这使得,因此。因此,我们可以得出结论:处取得最大值。因此,的MLE是(而不是,这是最大似然估计!)
Clipboard

练习。使用二阶导数检验验证处取得最大值。

  • 由于 ,其中分子为负,分母为正。因此,。根据二阶导数检验,这意味着 处取得最大值。


有时,在寻找参数的最大似然估计时,对参数会施加约束。这种情况下参数的最大似然估计被称为 受限 最大似然估计。我们将在以下例子中说明这一点。

示例: 继续前面硬币翻转的例子。假设对 有约束条件,其中 。在这种情况下,找到 的最大似然估计。

解:关于推导似然函数和对数似然函数的步骤,在这种情况下是相同的。如果没有限制, 的最大似然估计为 。现在,有了限制, 的最大似然估计为 ,仅当 时(我们总是拥有 ,因为 )。

If (and thus ), even though is maximized at , we cannot set the MLE to be due to the restriction on : . Under this case, this means when (we have when from previous example), i.e., is strictly increasing when . Thus, is maximized when with the restriction. As a result, the MLE of is (the MLE can be a constant, which can still be regarded as a function of ).

因此, 的最大似然估计可以写成一个分段函数:,或者可以写成

Clipboard

练习。 时,求 的最大似然估计。

  • 时,我们不能将最大似然估计设置为 ,因为存在限制。在这种情况下,我们知道当 时,,即当 时, 是严格递减的。因此, 处取得最大值,因此 的最大似然估计是
  • 时,我们可以将 MLE 设置为 ,此时 被最大化,因此 在这种情况下的 MLE。
  • 因此, 的 MLE 为


为了找到 MLE,我们有时会使用导数检验以外的方法,我们不需要找到对数似然函数。让我们在以下示例中说明这一点。

示例。 为来自均匀分布 的随机样本。求 的 MLE。

: 均匀分布的 pdf 为 。因此,似然函数为

为了使 达到最大值,首先,我们需要确保对于每一个 都有 ,这样似然函数中的指示函数的乘积才非零(在这种情况下,值为 1)。除此之外,由于 的严格递减函数(因为(我们有)),我们应该选择一个尽可能小的,这样,因此,尽可能大。

因此,我们应该选择一个尽可能小的,前提是满足约束条件 对每个,这意味着(无论 的选择如何,总有)对每个。由此可知, 的最大值时,达到最大值。因此, 的最大似然估计是.

Clipboard

练习。证明如果均匀分布变成,则 的最大似然估计不存在。

Proof. In this case, the constraint from the indicator functions become for each . With similar argument, for the MLE of , we should choose a that is as small as possible subject to this constraint, which means for each . However, in this case, we cannot set to be the maximum of , or else the constraint will not be satisfied and the likelihood function becomes zero due to the indicator function. Instead, we should set to be slightly greater than the maximum of , so that the constraint can still be satisifed, and is quite small. However, for each such , we can always chooses a smaller that still satisfies the constraint. For example, for each , the smaller beta, can be selected as [4]. Hence, we cannot find a minimum value of subject to this constraint. Thus, there is no maximum point for , and hence the MLE does not exist.



在下面的例子中,我们将找到参数向量的最大似然估计。

例如。 为来自均值为 方差为 的正态分布的随机样本, 。求 的最大似然估计。

: 令 。似然函数为 ,因此对数似然函数为 。由于此函数是多元的,我们可以使用多元微积分中的二阶偏导数检验来寻找最大点。但是,在这种情况下,我们实际上不需要使用此测试。相反,我们可以一次固定一个变量,使函数变成一元函数,这样我们就可以使用一元函数的导数测试来寻找最大点(另一个变量固定)。

由于

此外,,与 无关(这对我们使用这种方法很重要),并且

由于 , 根据二阶导数检验(对于单变量函数), 处取到最大值,在任意固定的 下。

另一方面,由于 , 因此 (由于 )。

因此,根据二阶导数检验, 处取得最大值,在任何固定的 情况下。

因此,我们现在固定 ,因此我们有 处取得最大值,其中 是样本方差 的实现。现在,固定 ,我们知道 处取得最大值,对于每个固定的 ,包括这个固定的 。因此, 处取得最大值。因此, 的最大似然估计是

Clipboard

练习。

(a) 计算 的 Hessian 矩阵在 处的行列式,可以表示为 .

(b) 因此,使用二阶偏导数检验,验证 的最大值点。


(a) 首先,

  • .

    (b) 由 (a) 可知,Hessian 矩阵的行列式为正。另外,。因此,根据二阶偏导数检验, 处取得最大值。


Clipboard

练习。 是来自速率参数为 的指数分布的随机样本,其 pdf 为 ,其中 。证明 的 MLE 为

证明: 似然函数为 。 因此,对数似然函数为 。 对对数似然函数关于 求导,得到 。 将导数设为零,得到 。 仍然需要验证 处取得最大值。 由于 , 因此得到验证。 因此, 的最大似然估计是


示例: (最大似然估计的应用) 假设你有一个盒子,里面有四个球,但你不知道红球和黑球的数量。 现在,你从盒子里抽取了三个球,发现你得到了两个红球和一个黑球。 使用最大似然估计,估计盒子里红球和黑球的数量。

解决方案: 根据抽取的球的颜色,我们知道盒子中至少有两个红色球和至少一个黑色球。这意味着盒子中要么有两个红色球,要么有三个红色球。令 表示盒子中的红色球的数量。那么,盒子中黑色球的数量为 。参数 的可能值为 2 和 3。

现在,我们比较当 时,从盒子中抽取三个球得到这种结果的概率。

  • 对于 ,概率为 (考虑超几何分布的概率质量函数)。
  • 对于 ,概率为

因此, 的最大似然估计为 3。因此,估计的红色球数量为 3,黑色球数量为 1。

Clipboard

练习。 假设盒子现在包含 100 个球,其中红色球和黑色球的数量未知。现在,你从盒子中抽出 99 个球,发现你得到了 98 个红色球和一个黑色球。使用最大似然估计,估计盒子中红色球和黑色球的数量。

类似地,盒子中至少有 98 个红色球和一个黑色球。我们使用与上面例子中相同的符号。那么,黑色球的数量为 ,参数 的可能值为 98 和 99。

  • 对于 ,概率为
  • 时,概率为

因此, 的最大似然估计值为 99。因此,估计的红球数量为 99,黑球数量为 1。

备注。

  • 在这种情况下, 两个可能值的概率差异变得更大。
  • 直观地说,当你得到这样的抽取结果时,你会认为盒子里面不太可能有两个黑球,也就是说,没有被抽到的球实际上是黑色的,而你却不知何故抽出了所有红球,而没有抽到黑球。




矩估计法 (MME)

[edit | edit source]

对于最大似然估计,我们需要利用似然函数,它从一个分布的随机样本的联合概率质量函数或概率密度函数中得到。然而,在实践中,我们可能不确切地知道分布的概率质量函数或概率密度函数。相反,我们可能只知道一些关于分布的信息,例如均值、方差和一些矩 ( 阶随机变量 的矩为 ,为了简便,我们将其表示为 )。这些矩通常包含关于未知参数的信息。例如,对于正态分布 ,我们知道 。因此,当我们想要估计参数时,可以通过估计矩来实现。

现在,我们想知道如何估计矩。我们设 样本矩 [5],其中 是独立同分布的。根据 大数定律(假设条件满足),我们有

  • (这可以通过在弱大数定律中用 "" 替换 "" 来看到,条件仍然满足,因此我们仍然可以应用弱大数定律)。

一般情况下,我们有 ,因为在弱大数定律中用 "" 替换 "" 之后,条件仍然满足。

由于这些结果,我们可以使用 阶样本矩 来估计 阶矩 ,当 很大时,估计值会“更好”。例如,在上面的正态分布示例中,我们可以用 来估计 ,用 来估计 ,这些估计量实际上被称为 矩估计法

更准确地说,我们有以下 矩方法 的定义。

定义。 (矩估计法) 令 为一个随机样本,来自具有概率密度函数或概率质量函数 的分布。写出 个矩,例如 ,作为 的函数: 分别。那么,矩估计量 (MME) 的 分别,由方程组的解给出(用 表示,以 表示,对应于 个矩 ) 对以下方程组:

备注。

  • 当存在 个未知参数时,我们需要求解一个包含 个样本矩的 个方程组。
  • 通常,我们根据定义选择前 个矩作为 个矩。但这并非必要,我们可以选择其他矩,包括分数矩(例如 ,在这种情况下,我们使用 )。
  • 因此,矩估计方法 是唯一的。

示例. 是来自正态分布 的随机样本。求 的矩估计量。

解决方案: 首先,有两个未知参数。因此,我们需要求解一个包含 2 个样本矩和 2 个矩的 2 个方程组。由于 并且 ,考虑以下方程组: 代入 ,得到 。因此, 的矩估计量为 的矩估计量为

备注。

  • 我们可以看到,找到 的矩估计量要比找到 的最大似然估计量容易得多。这是因为在这种情况下,一阶矩和二阶矩关于参数的表达式很简单。然而,当表达式更复杂时,找到参数的矩估计量可能会相当复杂。

例如。 是来自速率参数为 的指数分布的随机样本。求 的矩估计量,并将其与 的最大似然估计量进行比较。

: 由于 ,考虑以下等式:。然后我们有 。因此, 的矩估计量为 ,这与 的最大似然估计量相同。

Clipboard

练习。 是从均匀分布 中抽取的随机样本。证明 的矩估计量分别是

Proof. Since and , consider the following system of equations: From , we have . Substituting it into , we have Solving this equation by quadratic formula, we get .

时,。然而,根据均匀分布的定义,我们需要有 ,因此这种情况被拒绝。

时,,这满足均匀分布的定义。

因此,我们得到了期望的结果。


估计量的性质

[edit | edit source]

在本节中,我们将介绍一些评估点估计量“好坏”的标准,即 无偏性有效性一致性

无偏性

[edit | edit source]

为了使 成为参数 的“良好”估计量, 的一个理想属性是它的期望值等于参数 的值,或者至少接近该值。为此,我们引入一个值,即 偏差,用于衡量 的平均值与 之间的接近程度。

定义。(偏差)估计量 偏差

我们还将定义一些与偏差相关的术语。

定义。(无偏估计量)如果 ,则估计量 是参数 无偏估计量。否则,该估计量称为 有偏估计量

定义。(渐近无偏估计量)如果 (其中 是样本量),则估计量 是参数 渐近无偏估计量

备注。

  • 无偏估计量必须是渐近无偏估计量,但反之不成立,即渐近无偏估计量可能不是无偏估计量。因此,有偏估计量可以是渐近无偏估计量。
  • 当我们从无偏性的角度讨论估计量的优劣时,无偏估计量优于渐近无偏估计量,渐近无偏估计量优于有偏估计量。
  • 然而,除了无偏性之外,还有其他评估估计量优劣的标准,因此,当我们也考虑其他标准时,有偏估计量可能在总体上比无偏估计量“更好”。

示例。 是来自伯努利分布的随机样本,其成功概率为 。证明 的最大似然估计量 的无偏估计量。

证明。 由于 ,结论得证。

Clipboard

练习。 假设伯努利分布被替换为二项式分布,其具有 次试验和成功概率 。证明 的有偏估计量。修改此估计量,使其成为 的无偏估计量。

证明。 由于 的有偏估计量。

我们可以修改这个估计量为,然后它的均值为。或者,我们可以选择估计量为 (),其均值也是(其他均值为的估计量也可以)。


示例. 是来自正态分布 的随机样本。证明 的最大似然估计量 的无偏估计量,而 的最大似然估计量渐进无偏估计量。

证明. 首先,由于 的无偏估计量。

On the other hand, Thus, , as desired.

Clipboard

练习. 修改 的估计量,使其成为无偏估计量。

估计量可以修改为.


效率

[edit | edit source]

我们已经讨论了如何评估估计量的无偏性。现在,如果我们给定两个无偏估计量,,我们应该如何比较它们的优劣?如果我们只是从无偏性的角度进行比较,那么它们的优劣相同。因此,在这种情况下我们需要另一个标准。一种可能的方法是比较它们的方差,方差较小的那个更好,因为平均而言,估计量与其均值之间的偏差更小,而其均值是根据无偏估计量的定义,未知参数的值,因此方差较小的那个在某种偏差意义上更准确。实际上,无偏估计量仍然可能具有很大的方差,从而导致其与其均值之间存在很大的偏差。这种估计量是无偏的,因为正偏差和负偏差在某种程度上相互抵消。这就是效率的概念。

定义。(效率)假设 是未知参数 的两个无偏估计量。效率 相对于 。如果,那么我们说 相对更有效

备注。

  • 由于 ,方差较小的估计量相对于方差较大的估计量更有效率。
  • 通常情况下,方差应该是非零的,因此效率应该在正常情况下定义。
  • 有时,由于效率描述的是 等于“多少” ,它也被称为相对效率
  • 有人可能会问,为什么在比较方差时使用方差的 比率 来定义,而不是使用方差的 差值?一个可能的原因是,方差的 比率 没有单位(方差的单位(如果存在)相互抵消),但方差的 差值 可能有单位。此外,使用方差的 比率 使我们能够以数值方式 比较 由不同方差计算的不同 效率

事实上,对于无偏估计量的方差,由于无偏估计量的均值为未知参数 ,它衡量了从 的平方偏差的均值,我们对这种偏差有一个专门的术语,即 均方误差 (MSE)。

定义。 (均方误差)假设 是参数 的估计量。 均方误差 (MSE) 为

备注。

  • 从这个定义可以看出,误差 平方均值,因此得名 均方误差

请注意,在 MSE 的定义中,我们没有规定 是无偏估计量。因此,定义中的 可能是存在偏差的。我们已经提到,当 是无偏的,它的方差实际上就是它的 MSE。接下来,我们将给出 之间更一般的关系,而不局限于无偏估计量。

命题。 (均方误差与方差之间的关系) 如果 存在,则 .

Proof. By definition, we have and . From these, we are motivated to write as desired.

示例。) 来自 的一个随机样本。

(a) 证明单个观测估计量 的无偏估计量。

(b) 分别计算 的 MSE。

(c) 从无偏性和效率的角度来看, 哪个是更好的 估计量?

:

(a) 由于 ,结果随之而来。

(b) ,而 .

(c) 由于 更有效率。由于 都是 的无偏估计量,我们得出结论, 是一个比 更好的 估计量,在无偏性和效率方面。

Clipboard

练习。 除了示例中样本量为 的随机样本外,假设我们再抽取一个样本量为 的随机样本。令 分别表示样本量为 的样本的样本均值。

(a) 计算 .

(b) 说明样本量 之间的条件,使得 相对更有效率。


(a) 由于 (来自示例),并且 (根据与示例类似的论点),.

(b) 由于 ,条件是 .

备注。

  • 这表明样本量较大的样本均值比样本量较小的样本均值相对更有效率。



命题。 当且仅当 .

证明。

  • "如果" 部分很简单。假设 。然后,.
  • "仅如果" 部分:我们可以使用逆否证明,即证明如果 或者 ,则 .
  • 情况 1:当 时,这意味着 ,因为方差是非负的。此外,。因此,,即 MSE 不等于零。
  • 情况 2:当 时,这意味着 。此外,。因此,,即 MSE 不等于零。

备注。

  • 因此,如果我们知道 ,那么我们知道 ,即 是一个渐进无偏估计量(除了 ) ( 可能 是一个无偏估计量)。

一致最小方差无偏估计量

[编辑 | 编辑源代码]

现在,我们知道,无偏估计量的方差越小,它就越有效(越“好”。因此,很自然地,我们想知道什么是 有效的(即“最好”)无偏估计量,即方差最小的无偏估计量。对于这种无偏估计量,我们有一个专门的名称,即 一致最小方差无偏估计量(UMVUE) [6]。更准确地说,我们对 UMVUE 有如下定义

定义。(一致最小方差无偏估计量)一致最小方差无偏估计量(UMVUE)是在所有无偏估计量中方差 最小 的无偏估计量。

实际上,UMVUE 是 唯一的,即在所有无偏估计量中,只有一个无偏估计量的方差最小,我们将在下面对此进行证明。

命题。(UMVUE 的唯一性)如果 是参数 的函数的 UMVUE,那么 是唯一的。

证明。 假设 的一个UMVUE,而 的另一个UMVUE。定义估计量 。由于 的无偏估计量。

Now, we consider the variance of . Thus, we now have either or . If the former is true, then is not an UMVUE of by definition, since we can find another unbiased estimator, namely , with smaller variance than it. Hence, we must have the latter, i.e., This implies when we apply the covariance inequality, the equality holds, i.e., which means is increasing linearly with , i.e., we can write for some constants and .

现在,我们考虑协方差 另一方面,由于协方差不等式中的等式成立,且 (因为它们都是UMVUE), 因此,我们有

剩下要证明的是 ,从而证明 ,因此得出结论,唯一 的。

从上面的分析中,我们目前有 ,如预期。

备注。

  • 因此,当我们能够找到一个UMVUE时,它就是唯一的,并且所有其他可能无偏估计量的方差严格大于UMVUE的方差。
克拉默-拉奥下界
[编辑 | 编辑源代码]

如果不使用一些结果,确定UMVUE 非常困难,因为存在许多(甚至可能是无限多个)可能的无偏估计量,因此很难确保一个特定的无偏估计量比所有其他可能的无偏估计量更有效。

因此,我们将介绍一些帮助我们找到UMVUE 的方法。对于第一种方法,我们找到了一个 下界 [7],该下界限定了所有可能的无偏估计量的方差。在获得这样的下界后,如果我们能找到一个方差恰好等于下界的无偏估计量,那么该下界就是方差的最小值,因此根据定义,这样的无偏估计量就是UMVUE。

备注。

  • 存在许多可能的较低界限,但当较低界限较大时,它更接近方差的实际最小值,因此“更好”。
  • 即使无偏估计量的方差未达到较低界限,它仍然可以是UMVUE。

找到这样的下界限的一种常见方法是使用 克拉默-拉奥下界 (CRLB),我们通过 克拉默-拉奥不等式 获得 CRLB。在陈述不等式之前,让我们定义一些相关的术语。

定义。(Fisher 信息)关于参数 Fisher 信息,样本量为 其中 是对数似然函数(作为一个随机变量)。

备注。

  • 被称为 评分函数,用 表示。
  • ” 可能是一个参数向量,也可能不是。 如果它只是一个单一参数(通常在这里是这种情况),那么它就与“” 相同。 我们使用“” 而不是“” 来强调“” 在 中指的是“” 在“” 中。
  • 可以定义“关于参数向量的费舍尔信息”,但在这种情况下,费舍尔信息采取的是 矩阵 的形式,而不是一个单一的数字,被称为 费舍尔信息矩阵。 然而,由于它比较复杂,我们在这里不讨论它。
  • 由于得分函数的期望值为

并且 在满足允许导数和积分交换的一些正则条件下,这等于 ,关于 的费舍尔信息量也是得分函数的方差,即

对于允许导数和积分交换的正则条件,它们包括

  1. 所涉及的偏导数应该存在,即所涉及函数的(自然对数)是可微的
  2. 所涉及的积分应该是可微的
  3. 支持不依赖于所涉及的参数

我们有一些结果可以帮助我们计算费舍尔信息量。

命题。 为来自具有 pdf 或 pmf 的分布的随机样本。此外,令 ,关于 的样本量为一的费舍尔信息。然后,在允许导数和积分交换的一些正则条件下,.

证明。