通常,随机变量 X {\displaystyle X} 来自一个随机实验,被 假设 遵循某个分布,该分布有一个未知(但 固定 )参数(向量)[ 1] θ ∈ R k {\displaystyle \theta \in \mathbb {R} ^{k}} [ 2] ( k {\displaystyle k} 是一个正整数,其值取决于分布),取值在一个称为参数空间的集合 Θ {\displaystyle \Theta } 中。
备注。
在 频率统计学 的语境下(这里就是这种情况),参数被认为是 固定 的。
另一方面,在 贝叶斯统计学 的语境下,参数被认为是 随机变量 。
例如,假设随机变量 X {\displaystyle X} 被假设服从正态分布 N ( μ , σ 2 ) {\displaystyle {\mathcal {N}}(\mu ,\sigma ^{2})} 。那么,在这种情况下,参数向量 θ = ( μ , σ ) ∈ Θ {\displaystyle \theta =(\mu ,\sigma )\in \Theta } 是未知的,参数空间 Θ = { ( μ , σ ) : μ ∈ R , σ > 0 } {\displaystyle \Theta =\{(\mu ,\sigma ):\mu \in \mathbb {R} ,\sigma >0\}} 。通常情况下,以某种方式 估计 这些未知参数很有用,以便更好地 "理解" 随机变量 X {\displaystyle X} 。我们希望确保估计应该 "好"[ 3] 足够,这样理解才会更准确。
直观地说,随机样本 X 1 , … , X n {\displaystyle X_{1},\dotsc ,X_{n}} 的(实现)应该是有用的。事实上,本章介绍的估计量在某种程度上都是基于随机样本的,这就是 点估计 的含义。为了更精确,让我们定义 点估计 和 点估计 。
定义。 (点估计) 点估计 是使用 统计量 的值来给出未知参数的单值估计(可以解释为一个 点 )的过程。
备注。
回想一下,统计量 是随机样本的函数。
我们将未知参数称为 总体参数 (因为与参数对应的底层分布称为 总体 )。
这个统计量称为点估计量 ,它的具体值称为点估计 。
点估计量 的符号通常带有 ^ {\displaystyle {\hat {}}} 。
点 估计与区间 估计形成对比,区间估计使用统计量的值来估计未知参数的区间 。
示例。 假设 X 1 , … , X n {\displaystyle X_{1},\dotsc ,X_{n}} 是从正态分布 N ( μ , σ 2 ) {\displaystyle {\mathcal {N}}(\mu ,\sigma ^{2})} 中抽取的 n {\displaystyle n} 个随机样本。
我们可以使用统计量 X ¯ = X 1 + ⋯ + X n n {\displaystyle {\overline {X}}={\frac {X_{1}+\dotsb +X_{n}}{n}}} 来估计 μ {\displaystyle \mu } ,直观上, X ¯ {\displaystyle {\overline {X}}} 被称为点估计量 ,它的具体值 x ¯ {\displaystyle {\overline {x}}} 被称为点估计 。
或者,我们可以直接使用统计量 X 1 {\displaystyle X_{1}} (尽管它不包含 X 2 , … , X n {\displaystyle X_{2},\dotsc ,X_{n}} ,它仍然可以被视为 X 1 , … , X n {\displaystyle X_{1},\dotsc ,X_{n}} 的函数)来估计 μ {\displaystyle \mu } 。也就是说,我们使用正态分布的第一个随机样本的值作为分布均值的点估计!直观上,这种估计量似乎很“糟糕”。
这种直接使用一个随机样本的估计量被称为单观测估计量 。
我们将在后面讨论如何评估点估计量的好坏。
接下来,我们将介绍两个著名的点估计量,它们实际上是相当“好”的,即最大似然估计量 和矩估计量 。
顾名思义,这个估计量是最大化 某种“似然”的估计量。现在,我们想知道应该最大化什么“似然”来估计未知参数(以“好”的方式)。此外,正如引言中提到的,估计量在某种程度上基于随机样本。因此,这种“似然”也应该在某种程度上基于随机样本。
为了更好地理解最大似然估计量的定义,请考虑以下示例。
示例. 在一个随机实验中,一枚(公平或不公平)硬币被抛掷一次。令随机变量 X = 1 {\displaystyle X=1} 如果出现正面,则为 0 {\displaystyle 0} 否则。 那么, X {\displaystyle X} 的 pmf 是 f ( x ; p ) = p x ( 1 − p ) 1 − x , x ∈ { 0 , 1 } {\displaystyle f(x;p)=p^{x}(1-p)^{1-x},\quad x\in \{0,1\}} ,其中未知参数 p {\displaystyle p} 表示出现正面的概率,并且 p ∈ Θ = { p : p ∈ ( 0 , 1 ) } {\displaystyle p\in \Theta =\{p:p\in (0,1)\}} .
现在,假设你得到了一个随机样本 X 1 , X 2 , … , X n {\displaystyle X_{1},X_{2},\dotsc ,X_{n}} 通过将硬币抛掷 n {\displaystyle n} 次独立地(这种随机样本被称为独立 随机样本,因为所涉及的随机变量是独立的),相应的实现为 x 1 , x 2 , … , x n {\displaystyle x_{1},x_{2},\dotsc ,x_{n}} 。 那么, X 1 = x 1 , X 2 = x 2 , … , and X n = x n {\displaystyle X_{1}=x_{1},X_{2}=x_{2},\dotsc ,{\text{ and }}X_{n}=x_{n}} ,即随机样本恰好具有这些实现,的概率是 P ( X 1 = x 1 ∩ X 2 = x 2 ∩ ⋯ ∩ X n = x n ) = P ( X 1 = x 1 ) P ( X 2 = x 2 ) ⋯ P ( X n = x n ) by independence = f ( x 1 ; p ) f ( x 2 ; p ) ⋯ f ( x n ; p ) = p x 1 ( 1 − p ) 1 − x 1 p x 2 ( 1 − p ) 1 − x 2 ⋯ p x n ( 1 − p ) 1 − x n = p x 1 + x 2 + ⋯ + x n ( 1 − p ) n − x 1 − x 2 − ⋯ − x n . {\displaystyle {\begin{aligned}\mathbb {P} (X_{1}=x_{1}\cap X_{2}=x_{2}\cap \dotsb \cap X_{n}=x_{n})&=\mathbb {P} (X_{1}=x_{1})\mathbb {P} (X_{2}=x_{2})\dotsb \mathbb {P} (X_{n}=x_{n})&{\text{by independence}}\\&=f(x_{1};p)f(x_{2};p)\dotsb f(x_{n};p)\\&=p^{x_{1}}(1-p)^{1-x_{1}}p^{x_{2}}(1-p)^{1-x_{2}}\dotsb p^{x_{n}}(1-p)^{1-x_{n}}\\&=p^{x_{1}+x_{2}+\dotsb +x_{n}}(1-p)^{n-x_{1}-x_{2}-\dotsb -x_{n}}.\end{aligned}}}
备注。
符号说明 : 你可能会注意到在 X {\displaystyle X} 的pmf中有一个额外的" ; p {\displaystyle ;p} "。这种符号表示pmf是具有参数值 p {\displaystyle p} 的。它被包含进来是为了强调 我们所指的参数值。
一般来说,我们用 f ( ⋅ ; θ ) {\displaystyle f(\cdot ;\theta )} 表示具有参数值 θ {\displaystyle \theta } ( θ {\displaystyle \theta } 可以是向量)的pmf/pdf。
一些其他符号具有相同的含义: f ( ⋅ | θ ) , f θ ( ⋅ ) , … {\displaystyle f(\cdot |\theta ),f_{\theta }(\cdot ),\dotsc } .
类似地,我们有类似的符号,例如 P θ ( A ) , P ( A | θ ) , P ( A ; θ ) , … {\displaystyle \mathbb {P} _{\theta }(A),\mathbb {P} (A|\theta ),\mathbb {P} (A;\theta ),\dotsc } ,表示事件 A {\displaystyle A} 发生的概率,具有参数值 θ {\displaystyle \theta } 。(使用第一个符号更常见: P θ ( A ) {\displaystyle \mathbb {P} _{\theta }(A)} 。)
我们也有类似的符号表示均值、方差、协方差等,例如 E θ [ ⋅ ] , Var θ ( ⋅ ) , Cov θ ( ⋅ ) , … {\displaystyle \mathbb {E} _{\theta }[\cdot ],\operatorname {Var} _{\theta }(\cdot ),\operatorname {Cov} _{\theta }(\cdot ),\dotsc }
直观地,对于这些特定的实现(固定),我们希望找到一个 p {\displaystyle p} 的值,使该概率最大化,即使所获得的实现成为“最可能”或“最大似然”的实现。现在,让我们正式定义与MLE相关的术语。
定义. (似然函数)设 X 1 , … , X n {\displaystyle X_{1},\dotsc ,X_{n}} 是一个具有 联合 pmf 或 pdf f {\displaystyle f} 的随机样本,参数(向量)为 θ ∈ Θ {\displaystyle \theta \in \Theta } ( Θ {\displaystyle \Theta } 是参数空间)。假设 x 1 , … , x n {\displaystyle x_{1},\dotsc ,x_{n}} 是随机样本 X 1 , … , X n {\displaystyle X_{1},\dotsc ,X_{n}} 的对应实现。那么,似然函数 ,记为 L ( θ ; x 1 , … , x n ) {\displaystyle {\mathcal {L}}(\theta ;x_{1},\dotsc ,x_{n})} ,是函数 θ ↦ f ( x 1 , … , x n ; θ ) {\displaystyle \theta \mapsto f(x_{1},\dotsc ,x_{n};\theta )} ( θ {\displaystyle \theta } 是一个变量,而 x 1 , … , x n {\displaystyle x_{1},\dotsc ,x_{n}} 是固定的)。
备注。
为了简单起见,我们可以使用符号 L ( θ ; x ) {\displaystyle {\mathcal {L}}(\theta ;\mathbf {x} )} 来代替 L ( θ ; x 1 , … , x n ) {\displaystyle {\mathcal {L}}(\theta ;x_{1},\dotsc ,x_{n})} 。有时,为了方便,我们也可以只写“ L ( θ ; x ) {\displaystyle {\mathcal {L}}(\theta ;\mathbf {x} )} ”。
当我们用 X 1 , … , X n {\displaystyle X_{1},\dotsc ,X_{n}} 代替 x 1 , … , x n {\displaystyle x_{1},\dotsc ,x_{n}} 时,得到的“似然函数”就变成了一个随机变量,我们用 L ( θ ; X 1 , … , X n ) {\displaystyle {\mathcal {L}}(\theta ;X_{1},\dotsc ,X_{n})} 或 L ( θ ; X ) {\displaystyle {\mathcal {L}}(\theta ;\mathbf {X} )} 来表示。
似然函数与联合概率质量函数或概率密度函数本身形成对比,其中 θ {\displaystyle \theta } 是固定的,而 x 1 , … , x n {\displaystyle x_{1},\dotsc ,x_{n}} 是变量。
当随机样本来自 离散 分布时,似然函数的值就是参数向量 θ {\displaystyle \theta } 处的概率 P ( X 1 = x 1 ∩ ⋯ ∩ X n = x n ) {\displaystyle \mathbb {P} (X_{1}=x_{1}\cap \dotsb \cap X_{n}=x_{n})} 。也就是说,获得此特定实现的概率。
当随机样本来自 连续 分布时,似然函数的值 不是 概率。相反,它只是联合概率密度函数在 ( x 1 , … , x n ) {\displaystyle (x_{1},\dotsc ,x_{n})} 处的取值(可以大于 1)。但是,该值仍然可以用来“反映”获得“非常接近”此特定实现的概率,而该概率可以通过在 ( x 1 , … , x n ) {\displaystyle (x_{1},\dotsc ,x_{n})} 周围的“非常小”区域内对联合概率密度函数进行积分来获得。
似然函数的自然对数, ln L ( θ ; x ) {\displaystyle \ln {\mathcal {L}}(\theta ;\mathbf {x} )} (或有时为 ln L ( θ ; X ) {\displaystyle \ln {\mathcal {L}}(\theta ;\mathbf {X} )} )称为 对数似然函数 。
请注意,似然函数的“表达式”实际上与联合概率密度函数的表达式相同,只是输入不同。因此,仍然可以对似然函数关于 x 1 , … , x n {\displaystyle x_{1},\dotsc ,x_{n}} 进行积分/求和(从某种意义上说,这在某种程度上将似然函数更改为该上下文中联合概率密度函数/概率质量函数),就好像它是联合概率密度函数/概率质量函数以获得概率。
现在,让我们找到前一个抛硬币例子中未知参数 p {\displaystyle p} 的 MLE。
有时,在寻找参数的最大似然估计时,对参数会施加约束。这种情况下参数的最大似然估计被称为 受限 最大似然估计。我们将在以下例子中说明这一点。
示例: 继续前面硬币翻转的例子。假设对 p {\displaystyle p} 有约束条件,其中 0 ≤ p ≤ 1 2 {\displaystyle 0\leq p\leq {\frac {1}{2}}} 。在这种情况下,找到 p {\displaystyle p} 的最大似然估计。
解: 关于推导似然函数和对数似然函数的步骤,在这种情况下是相同的。如果没有限制, p {\displaystyle p} 的最大似然估计为 X ¯ {\displaystyle {\overline {X}}} 。现在,有了限制, p {\displaystyle p} 的最大似然估计为 X ¯ {\displaystyle {\overline {X}}} ,仅当 X ¯ ≤ 1 2 {\displaystyle {\overline {X}}\leq {\frac {1}{2}}} 时(我们总是拥有 X ¯ ≥ 0 {\displaystyle {\overline {X}}\geq 0} ,因为 X ≥ 0 {\displaystyle X\geq 0} )。
If X ¯ > 1 2 {\displaystyle {\overline {X}}>{\frac {1}{2}}} (and thus x ¯ > 1 / 2 {\displaystyle {\overline {x}}>1/2} ), even though ln L ( p ) {\displaystyle \ln {\mathcal {L}}(p)} is maximized at p = x ¯ {\displaystyle p={\overline {x}}} , we cannot set the MLE to be X ¯ {\displaystyle {\overline {X}}} due to the restriction on p {\displaystyle p} : 0 ≤ p ≤ 1 2 {\displaystyle 0\leq p\leq {\frac {1}{2}}} . Under this case, this means d ln L ( p ) d p > 0 {\displaystyle {\frac {d\ln {\mathcal {L}}(p)}{dp}}>0} when p ≤ 1 2 < X ¯ {\displaystyle p\leq {\frac {1}{2}}<{\overline {X}}} (we have d ln L ( p ) d p > 0 {\displaystyle {\frac {d\ln {\mathcal {L}}(p)}{dp}}>0} when p < x ¯ {\displaystyle p<{\overline {x}}} from previous example), i.e., ln L ( p ) {\displaystyle \ln {\mathcal {L}}(p)} is strictly increasing when p ≤ 1 2 {\displaystyle p\leq {\frac {1}{2}}} . Thus, ln L ( p ) {\displaystyle \ln {\mathcal {L}}(p)} is maximized when p = 1 2 {\displaystyle p={\frac {1}{2}}} with the restriction. As a result, the MLE of p {\displaystyle p} is 1 2 {\displaystyle {\frac {1}{2}}} (the MLE can be a constant, which can still be regarded as a function of X 1 , … , X n {\displaystyle X_{1},\dotsc ,X_{n}} ).
因此, p {\displaystyle p} 的最大似然估计可以写成一个分段函数: θ ^ = { X ¯ , X ¯ ≤ 1 2 1 2 , X ¯ > 1 2 {\displaystyle {\hat {\theta }}={\begin{cases}{\overline {X}},&{\overline {X}}\leq {\frac {1}{2}}\\{\frac {1}{2}},&{\overline {X}}>{\frac {1}{2}}\end{cases}}} ,或者可以写成 θ ^ = min { X ¯ , 1 2 } {\displaystyle {\hat {\theta }}=\min \left\{{\overline {X}},{\frac {1}{2}}\right\}}
为了找到 MLE,我们有时会使用导数检验以外的方法,我们不需要找到对数似然函数。让我们在以下示例中说明这一点。
示例。 令 X 1 , … , X n {\displaystyle X_{1},\dotsc ,X_{n}} 为来自均匀分布 U [ 0 , β ] {\displaystyle {\mathcal {U}}[0,\beta ]} 的随机样本。求 β {\displaystyle \beta } 的 MLE。
解 : 均匀分布的 pdf 为 f ( x ; β ) = 1 β 1 { 0 ≤ x ≤ β } {\displaystyle f(x;\beta )={\frac {1}{\beta }}\mathbf {1} \{0\leq x\leq \beta \}} 。因此,似然函数为 L ( β ) = ∏ i = 1 n 1 β 1 { 0 ≤ x i ≤ β } = 1 β n ∏ i = 1 n 1 { 0 ≤ x i ≤ β } {\displaystyle {\mathcal {L}}(\beta )=\prod _{i=1}^{n}{\frac {1}{\beta }}\mathbf {1} \{0\leq x_{i}\leq \beta \}={\frac {1}{\beta ^{n}}}\prod _{i=1}^{n}\mathbf {1} \{0\leq x_{i}\leq \beta \}} 。
为了使 L ( β ) {\displaystyle {\mathcal {L}}(\beta )} 达到最大值,首先,我们需要确保对于每一个 i ∈ { 1 , … , n } {\displaystyle i\in \{1,\dotsc ,n\}} 都有 0 ≤ x i ≤ β {\displaystyle 0\leq x_{i}\leq \beta } ,这样似然函数中的指示函数的乘积才非零(在这种情况下,值为 1)。除此之外,由于 β ↦ 1 β n {\displaystyle \beta \mapsto {\frac {1}{\beta ^{n}}}} 是 β {\displaystyle \beta } 的严格递减函数(因为 d d β ( 1 β n ) = − n β n + 1 < 0 {\displaystyle {\frac {d}{d\beta }}\left({\frac {1}{\beta ^{n}}}\right)={\frac {-n}{\beta ^{n+1}}}<0} (我们有 n , β > 0 {\displaystyle n,\beta >0} )),我们应该选择一个尽可能小的 β {\displaystyle \beta } ,这样 1 β n {\displaystyle {\frac {1}{\beta ^{n}}}} ,因此 L ( β ) {\displaystyle {\mathcal {L}}(\beta )} ,尽可能大。
因此,我们应该选择一个尽可能小的 β {\displaystyle \beta } ,前提是满足约束条件 0 ≤ x i ≤ β {\displaystyle 0\leq x_{i}\leq \beta } 对每个 i ∈ { 1 , … , n } {\displaystyle i\in \{1,\dotsc ,n\}} ,这意味着 β ≥ x i {\displaystyle \beta \geq x_{i}} (无论 β {\displaystyle \beta } 的选择如何,总有 x i ≥ 0 {\displaystyle x_{i}\geq 0} )对每个 i ∈ { 1 , … , n } {\displaystyle i\in \{1,\dotsc ,n\}} 。由此可知, L ( β ) {\displaystyle {\mathcal {L}}(\beta )} 当 β {\displaystyle \beta } 是 x 1 , … , x n {\displaystyle x_{1},\dotsc ,x_{n}} 的最大值时,达到最大值。因此, β {\displaystyle \beta } 的最大似然估计是 β ^ = max { X 1 , … , X n } {\displaystyle {\hat {\beta }}=\max\{X_{1},\dotsc ,X_{n}\}} .
练习。 证明如果均匀分布变成 U [ 0 , β ) {\displaystyle {\mathcal {U}}[0,\beta )} ,则 β {\displaystyle \beta } 的最大似然估计不存在。
解
Proof. In this case, the constraint from the indicator functions become 0 ≤ x i < β {\displaystyle 0\leq x_{i}<\beta } for each i ∈ { 1 , … , n } {\displaystyle i\in \{1,\dotsc ,n\}} . With similar argument, for the MLE of β {\displaystyle \beta } , we should choose a β {\displaystyle \beta } that is as small as possible subject to this constraint, which means β > x i {\displaystyle \beta >x_{i}} for each i ∈ { 1 , … , n } {\displaystyle i\in \{1,\dotsc ,n\}} . However, in this case, we cannot set β {\displaystyle \beta } to be the maximum of x 1 , … , x n {\displaystyle x_{1},\dotsc ,x_{n}} , or else the constraint will not be satisfied and the likelihood function becomes zero due to the indicator function. Instead, we should set β {\displaystyle \beta } to be slightly greater than the maximum of x 1 , … , x n {\displaystyle x_{1},\dotsc ,x_{n}} , so that the constraint can still be satisifed, and β {\displaystyle \beta } is quite small. However, for each such β > max { x 1 , … , x n } {\displaystyle \beta >\max\{x_{1},\dotsc ,x_{n}\}} , we can always chooses a smaller β {\displaystyle \beta } that still satisfies the constraint. For example, for each β {\displaystyle \beta } , the smaller beta, β ′ {\displaystyle \beta '} can be selected as max { x 1 , … , x n } + β − max { x 1 , … , x n } 2 > max { x 1 , … , x n } {\displaystyle \max\{x_{1},\dotsc ,x_{n}\}+{\frac {\beta -\max\{x_{1},\dotsc ,x_{n}\}}{2}}>\max\{x_{1},\dotsc ,x_{n}\}} [ 4] . Hence, we cannot find a minimum value of β {\displaystyle \beta } subject to this constraint. Thus, there is no maximum point for ln L ( p ) {\displaystyle \ln {\mathcal {L}}(p)} , and hence the MLE does not exist.
◻ {\displaystyle \Box }
在下面的例子中,我们将找到参数向量的最大似然估计。
例如。 令 X 1 , … , X n {\displaystyle X_{1},\dotsc ,X_{n}} 为来自均值为 θ 1 {\displaystyle \theta _{1}} 方差为 θ 2 {\displaystyle \theta _{2}} 的正态分布的随机样本, N ( θ 1 , θ 2 ) {\displaystyle {\mathcal {N}}(\theta _{1},\theta _{2})} 。求 ( θ 1 , θ 2 ) {\displaystyle (\theta _{1},\theta _{2})} 的最大似然估计。
解 : 令 θ = ( θ 1 , θ 2 ) {\displaystyle \theta =(\theta _{1},\theta _{2})} 。似然函数为 L ( θ ; x ) = ∏ i = 1 n 1 2 π θ 2 exp ( − ( x i − θ 1 ) 2 2 θ 2 ) = ( 2 π θ 2 ) − n / 2 exp ( − ∑ i = 1 n ( x i − θ 1 ) 2 2 θ 2 ) {\displaystyle {\mathcal {L}}(\theta ;\mathbf {x} )=\prod _{i=1}^{n}{\frac {1}{\sqrt {2\pi \theta _{2}}}}\exp \left(-{\frac {(x_{i}-\theta _{1})^{2}}{2\theta _{2}}}\right)=(2\pi \theta _{2})^{-n/2}\exp \left(-\sum _{i=1}^{n}{\frac {(x_{i}-\theta _{1})^{2}}{2\theta _{2}}}\right)} ,因此对数似然函数为 ln L ( θ ; x ) = − n 2 ln ( 2 π θ 2 ) − ∑ i = 1 n ( x i − θ 1 ) 2 2 θ 2 {\displaystyle \ln {\mathcal {L}}(\theta ;\mathbf {x} )=-{\frac {n}{2}}\ln(2\pi \theta _{2})-\sum _{i=1}^{n}{\frac {(x_{i}-\theta _{1})^{2}}{2\theta _{2}}}} 。由于此函数是多元的,我们可以使用多元微积分中的二阶偏导数检验来寻找最大点。但是,在这种情况下,我们实际上不需要使用此测试。相反,我们可以一次固定一个变量,使函数变成一元函数,这样我们就可以使用一元函数的导数测试来寻找最大点(另一个变量固定)。
由于 ∂ ln L ( θ ; x ) ∂ θ 1 = 1 θ 2 ∑ i = 1 n ( x i − θ 1 ) {\displaystyle {\frac {\partial \ln {\mathcal {L}}(\theta ;\mathbf {x} )}{\partial \theta _{1}}}={\frac {1}{\theta _{2}}}\sum _{i=1}^{n}(x_{i}-\theta _{1})} 和 ∂ ln L ( θ ; x ) ∂ θ 2 = − 2 n π 4 π θ 2 + 1 2 θ 2 2 ∑ i = 1 n ( x i − θ 1 ) 2 = − n 2 θ 2 + 1 2 θ 2 2 ∑ i = 1 n ( x i − θ 1 ) 2 {\displaystyle {\frac {\partial \ln {\mathcal {L}}(\theta ;\mathbf {x} )}{\partial \theta _{2}}}=-{\frac {2n\pi }{4\pi \theta _{2}}}+{\frac {1}{2\theta _{2}^{2}}}\sum _{i=1}^{n}(x_{i}-\theta _{1})^{2}=-{\frac {n}{2\theta _{2}}}+{\frac {1}{2\theta _{2}^{2}}}\sum _{i=1}^{n}(x_{i}-\theta _{1})^{2}} 。
此外, ∂ ln L ( θ ; x ) ∂ θ 1 = 0 ⟹ ∑ i = 1 n ( x i − θ 1 ) = 0 ⟹ − n θ 1 + ∑ i = 1 n x i = 0 ⟹ θ 1 = ∑ i = 1 n x i n = x ¯ {\displaystyle {\frac {\partial \ln {\mathcal {L}}(\theta ;\mathbf {x} )}{\partial \theta _{1}}}=0\implies \sum _{i=1}^{n}(x_{i}-\theta _{1})=0\implies -n\theta _{1}+\sum _{i=1}^{n}x_{i}=0\implies \theta _{1}={\frac {\sum _{i=1}^{n}x_{i}}{n}}={\overline {x}}} ,与 θ 2 {\displaystyle \theta _{2}} 无关(这对我们使用这种方法很重要),并且 ∂ ln L ( θ ; x ) ∂ θ 2 = 0 ⟹ n 2 θ 2 = 1 2 θ 2 2 ( ∑ i = 1 n ( x i − θ 1 ) 2 ) ⟹ n = 1 θ 2 ( ∑ i = 1 n ( x i − θ 1 ) 2 ) ⟹ θ 2 = ∑ i = 1 n ( x i − θ 1 ) 2 n {\displaystyle {\frac {\partial \ln {\mathcal {L}}(\theta ;\mathbf {x} )}{\partial \theta _{2}}}=0\implies {\frac {n}{2\theta _{2}}}={\frac {1}{2\theta _{2}^{2}}}\left(\sum _{i=1}^{n}(x_{i}-\theta _{1})^{2}\right)\implies n={\frac {1}{\theta _{2}}}\left(\sum _{i=1}^{n}(x_{i}-\theta _{1})^{2}\right)\implies \theta _{2}={\frac {\sum _{i=1}^{n}(x_{i}-\theta _{1})^{2}}{n}}} 。
由于 ∂ 2 ln L ( θ ; x ) ∂ θ 1 2 = ∂ ∂ θ 1 ( 1 θ 2 ∑ i = 1 n ( x i − θ 1 ) ) = 1 θ 2 ∑ i = 1 n ( − 1 ) = − n θ 2 < 0 {\displaystyle {\frac {\partial ^{2}\ln {\mathcal {L}}(\theta ;\mathbf {x} )}{\partial \theta _{1}^{2}}}={\frac {\partial }{\partial \theta _{1}}}\left({\frac {1}{\theta _{2}}}\sum _{i=1}^{n}(x_{i}-\theta _{1})\right)={\frac {1}{\theta _{2}}}\sum _{i=1}^{n}(-1)={\frac {-n}{\theta _{2}}}<0} , 根据二阶导数检验(对于单变量函数), ln L ( θ ; x ) {\displaystyle \ln {\mathcal {L}}(\theta ;\mathbf {x} )} 在 θ 1 = x ¯ {\displaystyle \theta _{1}={\overline {x}}} 处取到最大值,在任意固定的 θ 2 {\displaystyle \theta _{2}} 下。
另一方面,由于 ∂ 2 ln L ( θ ; x ) ∂ θ 2 2 = n 2 θ 2 2 − 1 θ 2 3 ∑ i = 1 n ( x i − θ 1 ) 2 {\displaystyle {\frac {\partial ^{2}\ln {\mathcal {L}}(\theta ;\mathbf {x} )}{\partial \theta _{2}^{2}}}={\frac {n}{2\theta _{2}^{2}}}-{\frac {1}{\theta _{2}^{3}}}\sum _{i=1}^{n}(x_{i}-\theta _{1})^{2}} , 因此 ∂ 2 ln L ( θ ; x ) ∂ θ 2 2 | θ 2 = ∑ i = 1 n ( x i − θ 1 ) 2 n = 1 2 n ( ∑ i = 1 n ( x i − θ 1 ) 2 ) 2 − n 3 ( ∑ i = 1 n ( x i − θ 1 ) 2 ) 2 = 1 − 2 n 4 2 n ( ∑ i = 1 n ( x i − θ 1 ) 2 ) 2 < 0 {\displaystyle \left.{\frac {\partial ^{2}\ln {\mathcal {L}}(\theta ;\mathbf {x} )}{\partial \theta _{2}^{2}}}\right\vert _{\theta _{2}={\frac {\sum _{i=1}^{n}(x_{i}-\theta _{1})^{2}}{n}}}={\frac {1}{2n\left(\sum _{i=1}^{n}(x_{i}-\theta _{1})^{2}\right)^{2}}}-{\frac {n^{3}}{\left(\sum _{i=1}^{n}(x_{i}-\theta _{1})^{2}\right)^{2}}}={\frac {1-2n^{4}}{2n\left(\sum _{i=1}^{n}(x_{i}-\theta _{1})^{2}\right)^{2}}}<0} (由于 2 n 4 > 1 {\displaystyle 2n^{4}>1} )。
因此,根据二阶导数检验, ln L ( θ ; x ) {\displaystyle \ln {\mathcal {L}}(\theta ;\mathbf {x} )} 在 θ 2 = ∑ i = 1 n ( x i − θ 1 ) 2 n {\displaystyle \theta _{2}={\frac {\sum _{i=1}^{n}(x_{i}-\theta _{1})^{2}}{n}}} 处取得最大值,在任何固定的 θ 1 {\displaystyle \theta _{1}} 情况下。
因此,我们现在固定 θ 1 = x ¯ {\displaystyle \theta _{1}={\overline {x}}} ,因此我们有 ln L ( θ ; x ) {\displaystyle \ln {\mathcal {L}}(\theta ;\mathbf {x} )} 在 θ 2 = ∑ i = 1 n ( x i − x ¯ ) 2 n = s 2 {\displaystyle \theta _{2}={\frac {\sum _{i=1}^{n}(x_{i}-{\overline {x}})^{2}}{n}}=s^{2}} 处取得最大值,其中 s 2 {\displaystyle s^{2}} 是样本方差 S 2 {\displaystyle S^{2}} 的实现。现在,固定 θ 2 {\displaystyle \theta _{2}} 为 s 2 {\displaystyle s^{2}} ,我们知道 ln L ( θ ; x ) {\displaystyle \ln {\mathcal {L}}(\theta ;\mathbf {x} )} 在 θ 1 = x ¯ {\displaystyle \theta _{1}={\overline {x}}} 处取得最大值,对于每个固定的 θ 2 {\displaystyle \theta _{2}} ,包括这个固定的 θ 2 = s 2 {\displaystyle \theta _{2}=s^{2}} 。因此, ln L ( θ ; x ) {\displaystyle \ln {\mathcal {L}}(\theta ;\mathbf {x} )} 在 ( θ 1 , θ 2 ) = ( x ¯ , s 2 ) {\displaystyle (\theta _{1},\theta _{2})=({\overline {x}},s^{2})} 处取得最大值。因此, ( θ 1 , θ 2 ) {\displaystyle (\theta _{1},\theta _{2})} 的最大似然估计是 ( X ¯ , S 2 ) {\displaystyle ({\overline {X}},S^{2})} 。
练习。
(a) 计算 ln L ( θ ; x ) {\displaystyle \ln {\mathcal {L}}(\theta ;\mathbf {x} )} 的 Hessian 矩阵在 ( θ 1 , θ 2 ) = ( x ¯ , s 2 ) {\displaystyle (\theta _{1},\theta _{2})=({\overline {x}},s^{2})} 处的行列式,可以表示为 ∂ 2 ln L ∂ θ 1 2 ( x ¯ , s 2 ) ∂ 2 ln L ∂ θ 2 2 ( x ¯ , s 2 ) − ( ∂ 2 ln L ∂ θ 2 ∂ θ 1 ( x ¯ , s 2 ) ) 2 {\displaystyle {\frac {\partial ^{2}\ln {\mathcal {L}}}{\partial \theta _{1}^{2}}}({\overline {x}},s^{2}){\frac {\partial ^{2}\ln {\mathcal {L}}}{\partial \theta _{2}^{2}}}({\overline {x}},s^{2})-\left({\frac {\partial ^{2}\ln {\mathcal {L}}}{\partial \theta _{2}\partial \theta _{1}}}({\overline {x}},s^{2})\right)^{2}} .
(b) 因此,使用二阶偏导数检验,验证 ( θ 1 , θ 2 ) = ( x ¯ , s 2 ) {\displaystyle (\theta _{1},\theta _{2})=({\overline {x}},s^{2})} 是 ln L ( θ ; x ) {\displaystyle \ln {\mathcal {L}}(\theta ;\mathbf {x} )} 的最大值点。
解
(a) 首先,
∂ 2 ln L ∂ θ 1 2 ( x ¯ , s 2 ) = above − n θ 2 | θ 2 = s 2 = − n s 2 {\displaystyle {\frac {\partial ^{2}\ln {\mathcal {L}}}{\partial \theta _{1}^{2}}}({\overline {x}},s^{2}){\overset {\text{above}}{=}}\left.{\frac {-n}{\theta _{2}}}\right\vert _{\theta _{2}=s^{2}}={\frac {-n}{s^{2}}}}
∂ 2 ln L ∂ θ 2 2 ( x ¯ , s 2 ) = above n 2 θ 2 2 − 1 θ 2 3 ∑ i = 1 n ( x i − θ 1 ) 2 | ( θ 1 , θ 2 ) = ( x ¯ , s 2 ) = n 2 ( s 2 ) 2 − 1 ( s 2 ) 3 ⋅ n s 2 = n 2 ( s 2 ) 2 − n ( s 2 ) 2 = − n 2 ( s 2 ) 2 {\displaystyle {\frac {\partial ^{2}\ln {\mathcal {L}}}{\partial \theta _{2}^{2}}}({\overline {x}},s^{2}){\overset {\text{above}}{=}}\left.{\frac {n}{2\theta _{2}^{2}}}-{\frac {1}{\theta _{2}^{3}}}\sum _{i=1}^{n}(x_{i}-\theta _{1})^{2}\right\vert _{(\theta _{1},\theta _{2})=({\overline {x}},s^{2})}={\frac {n}{2(s^{2})^{2}}}-{\frac {1}{(s^{2})^{3}}}\cdot ns^{2}={\frac {n}{2(s^{2})^{2}}}-{\frac {n}{(s^{2})^{2}}}={\frac {-n}{2(s^{2})^{2}}}}
− n s 2 ⋅ − n 2 ( s 2 ) 2 = n 2 2 ( s 2 ) 3 {\displaystyle {\frac {-n}{s^{2}}}\cdot {\frac {-n}{2(s^{2})^{2}}}={\frac {n^{2}}{2(s^{2})^{3}}}} .(b) 由 (a) 可知,Hessian 矩阵的行列式为正。另外, ∂ 2 ln L ∂ θ 1 2 ( x ¯ , s 2 ) = − n s 2 < 0 {\displaystyle {\frac {\partial ^{2}\ln {\mathcal {L}}}{\partial \theta _{1}^{2}}}({\overline {x}},s^{2})=-{\frac {n}{s^{2}}}<0} 。因此,根据二阶偏导数检验, ln L ( θ ; x ) {\displaystyle \ln {\mathcal {L}}(\theta ;\mathbf {x} )} 在 ( θ 1 , θ 2 ) = ( x ¯ , s 2 ) {\displaystyle (\theta _{1},\theta _{2})=({\overline {x}},s^{2})} 处取得最大值。
对于最大似然估计,我们需要利用似然函数,它从一个分布的随机样本的联合概率质量函数或概率密度函数中得到。然而,在实践中,我们可能不确切地知道分布的概率质量函数或概率密度函数。相反,我们可能只知道一些关于分布的信息,例如均值、方差和一些矩 ( r {\displaystyle r} 阶随机变量 X {\displaystyle X} 的矩为 E [ X r ] {\displaystyle \mathbb {E} [X^{r}]} ,为了简便,我们将其表示为 μ r {\displaystyle \mu _{r}} )。这些矩通常包含关于未知参数的信息。例如,对于正态分布 N ( μ , σ 2 ) {\displaystyle {\mathcal {N}}(\mu ,\sigma ^{2})} ,我们知道 μ = μ 1 {\displaystyle \mu =\mu _{1}} 和 σ 2 = μ 2 − ( μ 1 ) 2 {\displaystyle \sigma ^{2}=\mu _{2}-(\mu _{1})^{2}} 。因此,当我们想要估计参数时,可以通过估计矩来实现。
现在,我们想知道如何估计矩。我们设 m r = ∑ i = 1 n X i r n {\displaystyle m_{r}={\frac {\sum _{i=1}^{n}X_{i}^{r}}{n}}} 为 r {\displaystyle r} 阶 样本矩 [ 5] ,其中 X i {\displaystyle X_{i}} 是独立同分布的。根据 大数定律 (假设条件满足),我们有
X ¯ = m 1 → p E [ X ] = μ 1 {\displaystyle {\overline {X}}=m_{1}\;{\overset {p}{\to }}\;\mathbb {E} [X]=\mu _{1}}
m 2 → p E [ X 2 ] = μ 2 {\displaystyle m_{2}\;{\overset {p}{\to }}\;\mathbb {E} [X^{2}]=\mu _{2}} (这可以通过在弱大数定律中用 " X {\displaystyle X} " 替换 " X 2 {\displaystyle X^{2}} " 来看到,条件仍然满足,因此我们仍然可以应用弱大数定律)。
一般情况下,我们有 m r → p μ r {\displaystyle m_{r}\;{\overset {p}{\to }}\;\mu _{r}} ,因为在弱大数定律中用 " X {\displaystyle X} " 替换 " X r {\displaystyle X^{r}} " 之后,条件仍然满足。
由于这些结果,我们可以使用 r {\displaystyle r} 阶样本矩 m r {\displaystyle m_{r}} 来估计 r {\displaystyle r} 阶矩 μ r {\displaystyle \mu _{r}} ,当 n {\displaystyle n} 很大时,估计值会“更好”。例如,在上面的正态分布示例中,我们可以用 m 1 {\displaystyle m_{1}} 来估计 μ {\displaystyle \mu } ,用 m 2 − ( m 1 ) 2 {\displaystyle m_{2}-(m_{1})^{2}} 来估计 σ 2 {\displaystyle \sigma ^{2}} ,这些估计量实际上被称为 矩估计法 。
更准确地说,我们有以下 矩方法 的定义。
定义。 (矩估计法) 令 X 1 , … , X n {\displaystyle X_{1},\dotsc ,X_{n}} 为一个随机样本,来自具有概率密度函数或概率质量函数 f ( x ; θ 1 , … , θ k ) {\displaystyle f(x;\theta _{1},\dotsc ,\theta _{k})} 的分布。写出 k {\displaystyle k} 个矩,例如 μ 1 , … , μ k {\displaystyle \mu _{1},\dotsc ,\mu _{k}} ,作为 θ 1 , … , θ k {\displaystyle \theta _{1},\dotsc ,\theta _{k}} 的函数: g 1 ( θ 1 , … , θ k ) , … , g k ( θ 1 , … , θ k ) {\displaystyle g_{1}(\theta _{1},\dotsc ,\theta _{k}),\dotsc ,g_{k}(\theta _{1},\dotsc ,\theta _{k})} 分别。那么,矩估计量 (MME) 的 θ 1 , … , θ k {\displaystyle \theta _{1},\dotsc ,\theta _{k}} , θ ^ 1 , … , θ ^ k {\displaystyle {\hat {\theta }}_{1},\dotsc ,{\hat {\theta }}_{k}} 分别,由方程组的解给出(用 θ ^ 1 , … , θ ^ k {\displaystyle {\hat {\theta }}_{1},\dotsc ,{\hat {\theta }}_{k}} 表示,以 m 1 , … , m k {\displaystyle m_{1},\dotsc ,m_{k}} 表示,对应于 k {\displaystyle k} 个矩 μ 1 , … , μ k {\displaystyle \mu _{1},\dotsc ,\mu _{k}} ) 对以下方程组: { m 1 = g 1 ( θ ^ 1 , … , θ ^ k ) ⋮ m k = g k ( θ ^ 1 , … , θ ^ k ) {\displaystyle {\begin{cases}m_{1}=g_{1}({\hat {\theta }}_{1},\dotsc ,{\hat {\theta }}_{k})\\\vdots \\m_{k}=g_{k}({\hat {\theta }}_{1},\dotsc ,{\hat {\theta }}_{k})\\\end{cases}}}
在本节中,我们将介绍一些评估点估计量“好坏”的标准,即 无偏性 、有效性 和 一致性 。
为了使 θ ^ {\displaystyle {\hat {\theta }}} 成为参数 θ {\displaystyle \theta } 的“良好”估计量, θ ^ {\displaystyle {\hat {\theta }}} 的一个理想属性是它的期望值等于参数 θ {\displaystyle \theta } 的值,或者至少接近该值。为此,我们引入一个值,即 偏差 ,用于衡量 θ ^ {\displaystyle {\hat {\theta }}} 的平均值与 θ {\displaystyle \theta } 之间的接近程度。
定义。 (偏差)估计量 θ ^ {\displaystyle {\hat {\theta }}} 的 偏差 为 Bias ( θ ^ ) = E [ θ ^ ] − θ . {\displaystyle \operatorname {Bias} ({\hat {\theta }})=\mathbb {E} [{\hat {\theta }}]-\theta .}
我们还将定义一些与偏差相关的术语。
备注。
无偏估计量必须是渐近无偏估计量,但反之不成立,即渐近无偏估计量可能不是无偏估计量。因此,有偏估计量可以是渐近无偏估计量。
当我们从无偏性的角度讨论估计量的优劣时,无偏估计量优于渐近无偏估计量,渐近无偏估计量优于有偏估计量。
然而,除了无偏性之外,还有其他评估估计量优劣的标准,因此,当我们也考虑其他标准时,有偏估计量可能在总体上比无偏估计量“更好”。
我们已经讨论了如何评估估计量的无偏性。现在,如果我们给定两个无偏估计量, θ ^ {\displaystyle {\hat {\theta }}} 和 θ ~ {\displaystyle {\tilde {\theta }}} ,我们应该如何比较它们的优劣?如果我们只是从无偏性的角度进行比较,那么它们的优劣相同。因此,在这种情况下我们需要另一个标准。一种可能的方法是比较它们的方差 ,方差较小的那个更好,因为平均而言,估计量与其均值之间的偏差更小,而其均值是根据无偏估计量的定义,未知参数的值,因此方差较小的那个在某种偏差意义上更准确。实际上,无偏估计量仍然可能具有很大的方差,从而导致其与其均值之间存在很大的偏差。这种估计量是无偏的,因为正偏差和负偏差在某种程度上相互抵消。这就是效率 的概念。
事实上,对于无偏估计量的方差,由于无偏估计量的均值为未知参数 θ {\displaystyle \theta } ,它衡量了从 θ {\displaystyle \theta } 的平方偏差的均值,我们对这种偏差有一个专门的术语,即 均方误差 (MSE)。
备注。
从这个定义可以看出, MSE ( θ ^ ) {\displaystyle \operatorname {MSE} ({\hat {\theta }})} 是 误差 θ ^ − θ {\displaystyle {\hat {\theta }}-\theta } 的 平方 的 均值 ,因此得名 均方误差 。
请注意,在 MSE 的定义中,我们没有规定 θ ^ {\displaystyle {\hat {\theta }}} 是无偏估计量。因此,定义中的 θ ^ {\displaystyle {\hat {\theta }}} 可能是存在偏差的。我们已经提到,当 θ ^ {\displaystyle {\hat {\theta }}} 是无偏的,它的方差实际上就是它的 MSE。接下来,我们将给出 MSE ( θ ^ ) {\displaystyle \operatorname {MSE} ({\hat {\theta }})} 和 Var ( θ ^ ) {\displaystyle \operatorname {Var} ({\hat {\theta }})} 之间更一般的关系,而不局限于无偏估计量。
命题。 (均方误差与方差之间的关系) 如果 Var ( θ ^ ) {\displaystyle \operatorname {Var} ({\hat {\theta }})} 存在,则 MSE ( θ ^ ) = Var ( θ ^ ) + [ Bias ( θ ^ ) ] 2 {\displaystyle \operatorname {MSE} ({\hat {\theta }})=\operatorname {Var} ({\hat {\theta }})+[\operatorname {Bias} ({\hat {\theta }})]^{2}} .
现在,我们知道,无偏估计量的方差越小,它就越有效(越“好”。因此,很自然地,我们想知道什么是 最 有效的(即“最好”)无偏估计量,即方差最小的无偏估计量。对于这种无偏估计量,我们有一个专门的名称,即 一致最小方差无偏估计量(UMVUE) [ 6] 。更准确地说,我们对 UMVUE 有如下定义
定义。 (一致最小方差无偏估计量)一致最小方差无偏估计量 (UMVUE)是在所有无偏估计量中方差 最小 的无偏估计量。
实际上,UMVUE 是 唯一的 ,即在所有无偏估计量中,只有一个无偏估计量的方差最小,我们将在下面对此进行证明。
证明。 假设 W {\displaystyle W} 是 τ ( θ ) {\displaystyle \tau (\theta )} 的一个UMVUE,而 W ′ {\displaystyle W'} 是 τ ( θ ) {\displaystyle \tau (\theta )} 的另一个UMVUE。定义估计量 W ∗ = 1 2 ( W + W ′ ) {\displaystyle W^{*}={\frac {1}{2}}(W+W')} 。由于 E [ W ∗ ] = 1 2 ( E [ W ] + E [ W ′ ] ) = 1 2 ( τ ( θ + θ ) = τ ( θ ) {\displaystyle \mathbb {E} [W^{*}]={\frac {1}{2}}(\mathbb {E} [W]+\mathbb {E} [W'])={\frac {1}{2}}(\tau (\theta +\theta )=\tau (\theta )} , W ∗ {\displaystyle W^{*}} 是 τ ( θ ) {\displaystyle \tau (\theta )} 的无偏估计量。
Now, we consider the variance of W ∗ {\displaystyle W^{*}} . Var ( W ∗ ) = 1 4 Var ( W + W ′ ) = 1 4 [ Var ( W ) + Var ( W ′ ) + 2 Cov ( W , W ′ ) ] ≤ 1 4 Var ( W ) + 1 4 Var ( W ′ ) + 1 2 Var ( W ) Var ( W ′ ) ( covariance inequality ) = 1 4 Var ( W ) + 1 4 Var ( W ) + 1 2 ( Var ( W ) ) 2 ( Var ( W ) = Var ( W ′ ) since W and W ′ are both UMVUE ) = 1 2 Var ( W ) + 1 2 Var ( W ) ( Var ( W ) > 0 ) = Var ( W ) . {\displaystyle {\begin{aligned}\operatorname {Var} (W^{*})&={\frac {1}{4}}\operatorname {Var} (W+W')\\&={\frac {1}{4}}\left[\operatorname {Var} (W)+\operatorname {Var} (W')+2\operatorname {Cov} (W,W')\right]\\&\leq {\frac {1}{4}}\operatorname {Var} (W)+{\frac {1}{4}}\operatorname {Var} (W')+{\frac {1}{2}}{\sqrt {\operatorname {Var} (W)\operatorname {Var} (W')}}&({\text{covariance inequality}})\\&={\frac {1}{4}}\operatorname {Var} (W)+{\frac {1}{4}}\operatorname {Var} (W)+{\frac {1}{2}}{\sqrt {(\operatorname {Var} (W))^{2}}}&(\operatorname {Var} (W)=\operatorname {Var} (W'){\text{ since }}W{\text{ and }}W'{\text{ are both UMVUE}})\\&={\frac {1}{2}}\operatorname {Var} (W)+{\frac {1}{2}}\operatorname {Var} (W)&(\operatorname {Var} (W)>0)\\&=\operatorname {Var} (W).\end{aligned}}} Thus, we now have either Var ( W ∗ ) < Var ( W ) {\displaystyle \operatorname {Var} (W^{*})<\operatorname {Var} (W)} or Var ( W ∗ ) = Var ( W ) {\displaystyle \operatorname {Var} (W^{*})=\operatorname {Var} (W)} . If the former is true, then W {\displaystyle W} is not an UMVUE of τ ( θ ) {\displaystyle \tau (\theta )} by definition, since we can find another unbiased estimator, namely W ∗ {\displaystyle W^{*}} , with smaller variance than it. Hence, we must have the latter, i.e., Var ( W ∗ ) = Var ( W ) . {\displaystyle \operatorname {Var} (W^{*})=\operatorname {Var} (W).} This implies when we apply the covariance inequality, the equality holds, i.e., Cov ( W , W ′ ) = Var ( W ) Var ( W ′ ) ⟺ ρ ( W ′ , W ) = 1 , {\displaystyle \operatorname {Cov} (W,W')={\sqrt {\operatorname {Var} (W)\operatorname {Var} (W')}}\iff \rho (W',W)=1,} which means W ′ {\displaystyle W'} is increasing linearly with W {\displaystyle W} , i.e., we can write W ′ = a W + b {\displaystyle W'=aW+b} for some constants a > 0 {\displaystyle a>0} and b {\displaystyle b} .
现在,我们考虑协方差 Cov ( W , W ′ ) {\displaystyle \operatorname {Cov} (W,W')} 。 Cov ( W , W ′ ) = above Cov ( W , a W + b ) = properties a Cov ( W , W ) = property a Var ( W ) . {\displaystyle \operatorname {Cov} (W,W'){\overset {\text{ above }}{=}}\operatorname {Cov} (W,aW+b){\overset {\text{ properties }}{=}}a\operatorname {Cov} (W,W){\overset {\text{ property }}{=}}a\operatorname {Var} (W).} 另一方面,由于协方差不等式中的等式成立,且 Var ( W ) = Var ( W ′ ) {\displaystyle \operatorname {Var} (W)=\operatorname {Var} (W')} (因为它们都是UMVUE), Cov ( W , W ′ ) = Var ( W ) Var ( W ′ ) = ( Var ( W ) ) 2 = Var ( W ) . {\displaystyle \operatorname {Cov} (W,W')={\sqrt {\operatorname {Var} (W)\operatorname {Var} (W')}}={\sqrt {(\operatorname {Var} (W))^{2}}}=\operatorname {Var} (W).} 因此,我们有 a = 1 {\displaystyle a=1} 。
剩下要证明的是 b = 0 {\displaystyle b=0} ,从而证明 W = W ′ {\displaystyle W=W'} ,因此得出结论, W {\displaystyle W} 是 唯一 的。
从上面的分析中,我们目前有 W ′ = W + b ⟹ E [ W ′ ] = E [ W ] + b ⟹ τ ( θ ) = τ ( θ ) + b ⟹ b = 0 {\displaystyle W'=W+b\implies \mathbb {E} [W']=\mathbb {E} [W]+b\implies \tau (\theta )=\tau (\theta )+b\implies b=0} ,如预期。
◻ {\displaystyle \Box }
备注。
因此,当我们能够找到一个UMVUE时,它就是唯一的,并且所有其他可能无偏估计量的方差严格大于UMVUE的方差。
如果不使用一些结果,确定UMVUE 非常困难,因为存在许多(甚至可能是无限多个)可能的无偏估计量,因此很难确保一个特定的无偏估计量比所有其他可能的无偏估计量更有效。
因此,我们将介绍一些帮助我们找到UMVUE 的方法。对于第一种方法,我们找到了一个 下界 [ 7] ,该下界限定了所有可能的无偏估计量的方差。在获得这样的下界后,如果我们能找到一个方差恰好等于下界的无偏估计量,那么该下界就是方差的最小值,因此根据定义,这样的无偏估计量就是UMVUE。
备注。
存在许多可能的较低界限,但当较低界限较大时,它更接近方差的实际最小值,因此“更好”。
即使无偏估计量的方差未达到较低界限,它仍然可以是UMVUE。
找到这样的下界限的一种常见方法是使用 克拉默-拉奥下界 (CRLB),我们通过 克拉默-拉奥不等式 获得 CRLB。在陈述不等式之前,让我们定义一些相关的术语。
备注。
∂ ln L ( θ ; X ) ∂ θ {\displaystyle {\frac {\partial \ln {\mathcal {L}}({\boldsymbol {\theta }};\mathbf {X} )}{\partial \theta }}} 被称为 评分函数 ,用 S ( θ ; X ) {\displaystyle S(\theta ;\mathbf {X} )} 表示。
“ θ {\displaystyle {\boldsymbol {\theta }}} ” 可能是一个参数向量,也可能不是。 如果它只是一个单一参数(通常在这里是这种情况),那么它就与“ θ {\displaystyle \theta } ” 相同。 我们使用“ θ {\displaystyle {\boldsymbol {\theta }}} ” 而不是“ θ {\displaystyle \theta } ” 来强调“ θ {\displaystyle \theta } ” 在 I n ( θ ) {\displaystyle {\mathcal {I}}_{n}(\theta )} 和 S ( θ ; X ) {\displaystyle S(\theta ;\mathbf {X} )} 中指的是“ θ {\displaystyle \theta } ” 在“ ∂ ∂ θ {\displaystyle {\frac {\partial }{\partial \theta }}} ” 中。
可以定义“关于参数向量的费舍尔信息”,但在这种情况下,费舍尔信息采取的是 矩阵 的形式,而不是一个单一的数字,被称为 费舍尔信息矩阵 。 然而,由于它比较复杂,我们在这里不讨论它。
由于得分函数的期望值为
E [ S ( θ ; X ) ] E [ ∂ ln L ( θ ; X ) ∂ θ ] = ∫ − ∞ ∞ ⋯ ∫ − ∞ ∞ ∂ ln L ( θ ; x ) ∂ θ ⋅ L ( θ ; x ) d x n ⋯ d x 1 = ∫ − ∞ ∞ ⋯ ∫ − ∞ ∞ ∂ L ( θ ; x ) ∂ θ L ( θ ; x ) ⋅ L ( θ ; x ) d x n ⋯ d x 1 = ∫ − ∞ ∞ ⋯ ∫ − ∞ ∞ ∂ L ( θ ; x ) ∂ θ d x n ⋯ d x 1 , {\displaystyle \mathbb {E} [S(\theta ;\mathbf {X} )]\mathbb {E} \left[{\frac {\partial \ln {\mathcal {L}}({\boldsymbol {\theta }};\mathbf {X} )}{\partial \theta }}\right]=\int _{-\infty }^{\infty }\dotsi \int _{-\infty }^{\infty }{\frac {\partial \ln {\mathcal {L}}({\boldsymbol {\theta }};\mathbf {x} )}{\partial \theta }}\cdot {\mathcal {L}}({\boldsymbol {\theta }};\mathbf {x} )\,dx_{n}\cdots \,dx_{1}=\int _{-\infty }^{\infty }\dotsi \int _{-\infty }^{\infty }{\frac {\frac {\partial {\mathcal {L}}({\boldsymbol {\theta }};\mathbf {x} )}{\partial \theta }}{{\mathcal {L}}({\boldsymbol {\theta }};\mathbf {x} )}}\cdot {\mathcal {L}}({\boldsymbol {\theta }};\mathbf {x} )\,dx_{n}\cdots \,dx_{1}=\int _{-\infty }^{\infty }\dotsi \int _{-\infty }^{\infty }{\frac {\partial {\mathcal {L}}({\boldsymbol {\theta }};\mathbf {x} )}{\partial \theta }}\,dx_{n}\cdots \,dx_{1},}
并且 在满足允许导数和积分交换的一些正则条件下 ,这等于 ∂ ∂ θ ∫ − ∞ ∞ ⋯ ∫ − ∞ ∞ L ( θ ; x ) d x n ⋯ d x 1 = ∂ ∂ θ ( 1 ) = 0 {\displaystyle {\frac {\partial }{\partial \theta }}\int _{-\infty }^{\infty }\dotsi \int _{-\infty }^{\infty }{\mathcal {L}}({\boldsymbol {\theta }};\mathbf {x} )\,dx_{n}\cdots \,dx_{1}={\frac {\partial }{\partial \theta }}(1)=0} ,关于 θ {\displaystyle \theta } 的费舍尔信息量也是得分函数的方差,即 Var ( S ( θ ; X ) ) = Var ( ∂ ln L ( θ ; X ) ∂ θ ) {\displaystyle \operatorname {Var} (S(\theta ;\mathbf {X} ))=\operatorname {Var} \left({\frac {\partial \ln {\mathcal {L}}({\boldsymbol {\theta }};\mathbf {X} )}{\partial \theta }}\right)} 。
对于允许导数和积分交换的正则条件,它们包括
所涉及的偏导数应该存在,即所涉及函数的(自然对数)是可微的
所涉及的积分应该是可微的
支持不依赖于所涉及的参数
我们有一些结果可以帮助我们计算费舍尔信息量。
证明。 I n ( θ ) = E [ ( ∂ ln L ( θ ; x ) ∂ θ ) 2 ] = Var ( ∂ ln L ( θ ; x ) ∂ θ ) by above remark = Var ( ∂ ∂ θ ( ln ∏ i = 1 n f ( X i ; θ ) ) ) ( L ( θ ; x ) = ∏ i = 1 n f ( x i ; θ ) ) = Var ( ∂ ∂ θ ( ∑ i = 1 n ln f ( X i ; θ ) ) ) = Var ( ∑ i = 1 n ∂ ∂ θ ln f ( X i ; θ ) ) by linearity of differentiation = ∑ i = 1 n Var ( ∂ ∂ θ ln f
◻ {\displaystyle \Box }
命题。 在一些允许导数和积分交换的正则条件下, I ( θ ) = − E [ ∂ 2 ln f ( X ; θ ) ∂ θ 2 ] {\displaystyle {\mathcal {I}}(\theta )=-\mathbb {E} \left[{\frac {\partial ^{2}\ln f(X;{\boldsymbol {\theta }})}{\partial \theta ^{2}}}\right]} .
备注。
这个命题非常有用,因为在对 ln f ( X ; θ ) {\displaystyle \ln f(X;{\boldsymbol {\theta }})} 进行偏微分后,许多 X {\displaystyle X} 会消失,因此计算期望将变得更容易。
Proof. Since W {\displaystyle W} is an unbiased estimator of τ ( θ ) {\displaystyle \tau (\theta )} , we have by definition E [ W ] = τ ( θ ) {\displaystyle \mathbb {E} [W]=\tau (\theta )} . By definition of expectation, we have E [ W ] = ∫ − ∞ ∞ ⋯ ∫ − ∞ ∞ w L ( θ ; x ) d x n ⋯ d x 1 {\displaystyle \mathbb {E} [W]=\int _{-\infty }^{\infty }\dotsi \int _{-\infty }^{\infty }w{\mathcal {L}}(\theta ;\mathbf {x} )\,dx_{n}\cdots \,dx_{1}} where L ( θ ; x ) {\displaystyle {\mathcal {L}}(\theta ;\mathbf {x} )} is the likelihood function. Thus, ∫ − ∞ ∞ ⋯ ∫ − ∞ ∞ w L ( θ ; x ) d x n ⋯ d x 1 = τ ( θ ) ⇒ ∂ ∂ θ ∫ − ∞ ∞ ⋯ ∫ − ∞ ∞ w L ( θ ; x ) d x n ⋯ d x 1 = ∂ ∂ θ τ ( θ ) ⇒ ∫ − ∞ ∞ ⋯ ∫ − ∞ ∞ ∂ ∂ θ ( w L ( θ ; x ) ) d x n ⋯ d x 1 = τ ′ ( θ ) ⇒ ∫ − ∞ ∞ ⋯ ∫ − ∞ ∞ w ∂ ∂ θ ( L ( θ ; x ) ) ⋅ 1 L ( θ ; x ) ⋅ L ( θ ; x ) d x n ⋯ d x 1 = τ ′ ( θ ) ⇒ ∫ − ∞ ∞ ⋯ ∫ − ∞ ∞ w ∂ ln L ( θ ; x ) ∂ θ L ( θ ; x ) d x n ⋯ d x 1 = τ ′ ( θ ) ⇒ E [ W ⋅ ∂ ln L ( θ ; x ) ∂ θ ] = τ ′ ( θ ) ⇒ E [ W S ( θ ; X ) ] = τ ′ ( θ ) ( S ( θ ; X ) = ∂ ln L ( θ ; x ) ∂ θ ) ⇒ E [ W S ( θ ; X ) ] − E [ W ] E [ S ( θ ; X ) ] ⏟ = 0 = τ ′ ( θ ) ( E [ S ( θ ; X ) ] = 0 by remark about Fisher information ) ⇒ Cov ( W , S ( θ ; X ) ) = τ ′ ( θ ) {\displaystyle {\begin{aligned}&&\int _{-\infty }^{\infty }\dotsi \int _{-\infty }^{\infty }w{\mathcal {L}}(\theta ;\mathbf {x} )\,dx_{n}\cdots \,dx_{1}&=\tau (\theta )\\&\Rightarrow &{\frac {\partial }{\partial \theta }}\int _{-\infty }^{\infty }\dotsi \int _{-\infty }^{\infty }w{\mathcal {L}}(\theta ;\mathbf {x} )\,dx_{n}\cdots \,dx_{1}&={\frac {\partial }{\partial \theta }}\tau (\theta )\\&\Rightarrow &\int _{-\infty }^{\infty }\dotsi \int _{-\infty }^{\infty }{\frac {\partial }{\partial \theta }}\left(w{\mathcal {L}}(\theta ;\mathbf {x} )\right)\,dx_{n}\cdots \,dx_{1}&=\tau '(\theta )\\&\Rightarrow &\int _{-\infty }^{\infty }\dotsi \int _{-\infty }^{\infty }w{\frac {\partial }{\partial \theta }}\left({\mathcal {L}}(\theta ;\mathbf {x} )\right)\cdot {\frac {1}{{\mathcal {L}}(\theta ;\mathbf {x} )}}\cdot {\mathcal {L}}(\theta ;\mathbf {x} )\,dx_{n}\cdots \,dx_{1}&=\tau '(\theta )\\&\Rightarrow &\int _{-\infty }^{\infty }\dotsi \int _{-\infty }^{\infty }w{\frac {\partial \ln {\mathcal {L}}(\theta ;\mathbf {x} )}{\partial \theta }}{\mathcal {L}}(\theta ;\mathbf {x} )\,dx_{n}\cdots \,dx_{1}&=\tau '(\theta )\\&\Rightarrow &\mathbb {E} \left[W\cdot {\frac {\partial \ln {\mathcal {L}}(\theta ;\mathbf {x} )}{\partial \theta }}\right]&=\tau '(\theta )\\&\Rightarrow &\mathbb {E} \left[WS(\theta ;\mathbf {X} )\right]&=\tau '(\theta )&\left(S(\theta ;\mathbf {X} )={\frac {\partial \ln {\mathcal {L}}(\theta ;\mathbf {x} )}{\partial \theta }}\right)\\&\Rightarrow &\mathbb {E} \left[WS(\theta ;\mathbf {X} )\right]-\mathbb {E} [W]\underbrace {\mathbb {E} [S(\theta ;\mathbf {X} )]} _{=0}&=\tau '(\theta )&(\mathbb {E} [S(\theta ;\mathbf {X} )]=0{\text{ by remark about Fisher information}})\\&\Rightarrow &\operatorname {Cov} (W,S(\theta ;\mathbf {X} ))&=\tau '(\theta )\\\end{aligned}}} Consider the covariance inequality: ( Cov ( X , Y ) ) 2 ≤ Var ( X ) Var ( Y ) {\displaystyle (\operatorname {Cov} (X,Y))^{2}\leq \operatorname {Var} (X)\operatorname {Var} (Y)} . We have ( Cov ( W , S ( θ ; X ) ) ) 2 ≤ Var ( W ) Var ( S ( θ ; X ) ) ⟹ ( τ ′ ( θ ) ) 2 ≤ Var ( W ) Var ( S ( θ ; X ) ) ⟹ Var ( W ) ≥ ( τ ′ ( θ ) ) 2 Var ( S ( θ ; X ) ) = ( τ ′ ( θ ) ) 2 I n ( θ ) . {\displaystyle {\big (}\operatorname {Cov} (W,S(\theta ;\mathbf {X} )){\big )}^{2}\leq \operatorname {Var} (W)\operatorname {Var} (S(\theta ;\mathbf {X} ))\implies (\tau '(\theta ))^{2}\leq \operatorname {Var} (W)\operatorname {Var} (S(\theta ;\mathbf {X} ))\implies \operatorname {Var} (W)\geq {\frac {(\tau '(\theta ))^{2}}{\operatorname {Var} (S(\theta ;\mathbf {X} ))}}={\frac {(\tau '(\theta ))^{2}}{{\mathcal {I}}_{n}(\theta )}}.} ( I n ( θ ) = Var ( S ( θ ; X ) ) {\displaystyle {\mathcal {I}}_{n}(\theta )=\operatorname {Var} (S(\theta ;\mathbf {X} ))} by remark about Fisher information)
◻ {\displaystyle \Box }
有时,我们不能使用 CRLB 方法来寻找 UMVUE,因为
正则条件可能不满足,因此我们不能使用克拉美-拉奥不等式,以及
无偏估计量的方差可能不等于 CRLB,但我们不能断定它不是 UMVUE,因为可能是 CRLB 本身就不可达,而所有无偏估计量中最小方差实际上是该估计量的方差,它大于 CRLB。
我们将在下面说明这两种情况的一些例子。
由于 CRLB 有时可以实现,有时又无法实现,因此很自然地会问 何时 可以实现 CRLB。换句话说,我们想知道 CRLB 的 实现条件 ,这些条件在以下推论中给出。
Proof. Considering the proof for Cramer-Rao inequality, we have Var ( W ) = ( τ ′ ( θ ) ) 2 I n ( θ ) ⟺ ( Cov ( W , S ( θ ; X ) ) ) 2 = Var ( W ) Var ( S ( θ ; X ) ) {\displaystyle \operatorname {Var} (W)={\frac {(\tau '(\theta ))^{2}}{{\mathcal {I}}_{n}(\theta )}}\iff (\operatorname {Cov} (W,S(\theta ;\mathbf {X} )))^{2}=\operatorname {Var} (W)\operatorname {Var} (S(\theta ;\mathbf {X} ))} We can write Cov ( W , S ( θ ; X ) ) {\displaystyle \operatorname {Cov} (W,S(\theta ;\mathbf {X} ))} as Cov ( W − τ ( θ ) ⏟ constant , S ( θ ; X ) ) {\displaystyle \operatorname {Cov} (W-\underbrace {\tau (\theta )} _{\text{constant}},S(\theta ;\mathbf {X} ))} (by result about covariance). Also, Var ( W ) = Var ( W − τ ( θ ) ⏟ constant ) {\displaystyle \operatorname {Var} (W)=\operatorname {Var} (W-\underbrace {\tau (\theta )} _{\text{constant}})} (by result about variance). Thus, we have ( Cov ( W − τ ( θ ) , S ( θ ; X ) ) ) 2 = Var ( W − τ ( θ ) ) Var ( S ( θ ; X ) ) ⇔ ( Cov ( W − τ ( θ ) , S ( θ ; X ) ) ) 2 Var ( W − τ ( θ ) ) Var ( S ( θ ; X ) ) = 1 ⇔ ( Cov ( S ( θ ; X ) , W − τ ( θ ) ) ) 2 Var ( W − τ ( θ ) ) Var ( S ( θ ; X ) ) = 1 ⇔ ( ρ ( S ( θ ; X ) , W − τ ( θ ) ) ) 2 = 1 ⇔ ρ ( S ( θ ; X ) , W − τ ( θ ) ) = ± 1 {\displaystyle {\begin{aligned}&&{\big (}\operatorname {Cov} (W-\tau (\theta ),S(\theta ;\mathbf {X} )){\big )}^{2}&=\operatorname {Var} (W-\tau (\theta ))\operatorname {Var} (S(\theta ;\mathbf {X} ))\\&\Leftrightarrow &{\frac {{\big (}\operatorname {Cov} (W-\tau (\theta ),S(\theta ;\mathbf {X} )){\big )}^{2}}{\operatorname {Var} (W-\tau (\theta ))\operatorname {Var} (S(\theta ;\mathbf {X} ))}}&=1\\&\Leftrightarrow &{\frac {{\big (}\operatorname {Cov} (S(\theta ;\mathbf {X} ),W-\tau (\theta )){\big )}^{2}}{\operatorname {Var} (W-\tau (\theta ))\operatorname {Var} (S(\theta ;\mathbf {X} ))}}&=1\\&\Leftrightarrow &{\big (}\rho (S(\theta ;\mathbf {X} ),W-\tau (\theta )){\big )}^{2}&=1\\&\Leftrightarrow &\rho (S(\theta ;\mathbf {X} ),W-\tau (\theta ))&=\pm 1\end{aligned}}} where ρ ( ⋅ , ⋅ ) {\displaystyle \rho (\cdot ,\cdot )} is the correlation coefficient between two random variables. This means S ( θ ; X ) {\displaystyle S(\theta ;\mathbf {X} )} increases or decreases linearly with W − τ ( θ ) {\displaystyle W-\tau (\theta )} , i.e., S ( θ ; X ) = k ( W − τ ( θ ) ) + c {\displaystyle S(\theta ;\mathbf {X} )=k(W-\tau (\theta ))+c} for some constants c , k {\displaystyle c,k} . Now, it suffices to show that the constant c {\displaystyle c} is actually zero.
我们知道 E [ W ] = τ ( θ ) {\displaystyle \mathbb {E} [W]=\tau (\theta )} (因为 W {\displaystyle W} 是 τ ( θ ) {\displaystyle \tau (\theta )} 的无偏估计),并且 E [ S ( θ ; X ) ] = 0 {\displaystyle \mathbb {E} [S(\theta ;\mathbf {X} )]=0} (根据Fisher 信息的注释)。因此,对两边取期望得到 E [ S ( θ ; X ) ] = k E [ W − τ ( θ ) ] + c ⟺ E [ S ( θ ; X ) ] = k ( E [ W ] − τ ( θ ) ⏟ = 0 ) + c ⟺ 0 = 0 + c ⟺ c = 0. {\displaystyle \mathbb {E} [S(\theta ;\mathbf {X} )]=k\mathbb {E} [W-\tau (\theta )]+c\iff \mathbb {E} [S(\theta ;\mathbf {X} )]=k(\underbrace {\mathbb {E} [W]-\tau (\theta )} _{=0})+c\iff 0=0+c\iff c=0.} 然后,结果就出来了。
◻ {\displaystyle \Box }
例子。 继续从之前的例子开始。证明 σ 2 {\displaystyle \sigma ^{2}} 的 CRLB 使用 CRLB 的可达性条件 无法 达成。
备注。
即使我们知道 σ 2 {\displaystyle \sigma ^{2}} 的 CRLB 不可达,我们仍然不知道 n n − 1 ⋅ S 2 {\displaystyle {\frac {n}{n-1}}\cdot S^{2}} 是否是 UMVUE,因为可能存在方差更小(但没有达到 CRLB)的无偏估计量。
我们之前讨论过 MLE,实际上,根据以下定理,MLE 是渐近意义上的“最佳选择”(即当样本量 n → ∞ {\displaystyle n\to \infty } 时)。
Proof. Partial proof : we consider the Taylor series of order 2 for d d θ ln L ( θ ) {\displaystyle {\frac {d}{d\theta }}\ln {\mathcal {L}}(\theta )} , and we will get d d θ ln L ( θ ^ ) = d d θ ln L ( θ ) + ( θ ^ − θ ) d 2 d θ 2 ln L ( θ ) + 1 2 ( θ ^ − θ ) 2 d 3 d θ 3 ln L ( θ ) | θ = θ ∗ {\displaystyle {\frac {d}{d\theta }}\ln {\mathcal {L}}({\hat {\theta }})={\frac {d}{d\theta }}\ln {\mathcal {L}}(\theta )+({\hat {\theta }}-\theta ){\frac {d^{2}}{d\theta ^{2}}}\ln {\mathcal {L}}(\theta )+{\frac {1}{2}}({\hat {\theta }}-\theta )^{2}{\frac {d^{3}}{d\theta ^{3}}}\ln {\mathcal {L}}(\theta ){\bigg \vert }_{\theta =\theta ^{*}}} where θ ∗ {\displaystyle \theta ^{*}} is between θ {\displaystyle \theta } and θ ^ {\displaystyle {\hat {\theta }}} . Since θ ^ {\displaystyle {\hat {\theta }}} is the MLE of θ {\displaystyle \theta } , from the derivative test, we know that d d θ ln L ( θ ^ ) = 0 {\displaystyle {\frac {d}{d\theta }}\ln {\mathcal {L}}({\hat {\theta }})=0} (we apply regularity condition to ensure the existence of this derivative). Hence, we have d d θ ln L ( θ ) + ( θ ^ − θ ) d 2 d θ 2 ln L ( θ ) + 1 2 ( θ ^ − θ ) 2 d 3 d θ 3 ln L ( θ ) | θ = θ ∗ = 0 ⇒ − n ( θ ^ − θ ) d 2 d θ 2 ln L ( θ ) − n 2 ( θ ^ − θ ) 2 d 3 d θ 3 ln L ( θ ) | θ = θ ∗ = n d d θ ln L ( θ ) ⇒ n ( θ ^ − θ ) = d d θ ln L ( θ ) / n − n − 1 d 2 d θ 2 ln L ( θ ) − ( 2 n ) − 1 ( θ ^ − θ ) d 3 d θ 3 ln L ( θ ) | θ = θ ∗ . {\displaystyle {\begin{aligned}&&{\frac {d}{d\theta }}\ln {\mathcal {L}}(\theta )+({\hat {\theta }}-\theta ){\frac {d^{2}}{d\theta ^{2}}}\ln {\mathcal {L}}(\theta )+{\frac {1}{2}}({\hat {\theta }}-\theta )^{2}{\frac {d^{3}}{d\theta ^{3}}}\ln {\mathcal {L}}(\theta ){\bigg \vert }_{\theta =\theta ^{*}}&=0\\&\Rightarrow &-{\sqrt {n}}({\hat {\theta }}-\theta ){\frac {d^{2}}{d\theta ^{2}}}\ln {\mathcal {L}}(\theta )-{\frac {\sqrt {n}}{2}}({\hat {\theta }}-\theta )^{2}{\frac {d^{3}}{d\theta ^{3}}}\ln {\mathcal {L}}(\theta ){\bigg \vert }_{\theta =\theta ^{*}}={\sqrt {n}}{\frac {d}{d\theta }}\ln {\mathcal {L}}(\theta )\\&\Rightarrow &{\sqrt {n}}({\hat {\theta }}-\theta )={\frac {{\frac {d}{d\theta }}\ln {\mathcal {L}}(\theta )/{\sqrt {n}}}{-n^{-1}{\frac {d^{2}}{d\theta ^{2}}}\ln {\mathcal {L}}(\theta )-(2n)^{-1}({\hat {\theta }}-\theta ){\frac {d^{3}}{d\theta ^{3}}}\ln {\mathcal {L}}(\theta ){\bigg \vert }_{\theta =\theta ^{*}}}}.\end{aligned}}} Since Var ( ∑ i = 1 n ∂ ln f ( X i ; θ ) ∂ θ ) = ∑ i = 1 n Var ( ∂ ln f ( X i ; θ ) ∂ θ ) = ∑ i = 1 n E [ ( ∂ ln f ( X i ; θ ) ∂ θ ) 2 ] = n I ( θ ) ( 1 ) , {\displaystyle \operatorname {Var} \left(\sum _{i=1}^{n}{\frac {\partial \ln f(X_{i};\theta )}{\partial \theta }}\right)=\sum _{i=1}^{n}\operatorname {Var} \left({\frac {\partial \ln f(X_{i};\theta )}{\partial \theta }}\right)=\sum _{i=1}^{n}\mathbb {E} \left[\left({\frac {\partial \ln f(X_{i};\theta )}{\partial \theta }}\right)^{2}\right]=n{\mathcal {I}}(\theta )\qquad (1),} by central limit theorem, d d θ ln L ( θ ) n = 1 n ∑ i = 1 n ∂ ln f ( X i ; θ ) ∂ θ → d N ( 0 , ( 1 / n ) n I ( θ ) ) ≡ N ( 0 , I ( θ ) ) . {\displaystyle {\frac {{\frac {d}{d\theta }}\ln {\mathcal {L}}(\theta )}{\sqrt {n}}}={\frac {1}{\sqrt {n}}}\sum _{i=1}^{n}{\frac {\partial \ln f(X_{i};\theta )}{\partial \theta }}\;{\overset {d}{\to }}\;{\mathcal {N}}(0,(1/n)nI(\theta ))\equiv {\mathcal {N}}(0,{\mathcal {I}}(\theta )).} Furthermore, we apply the weak law of large number to show that − n − 1 d 2 d θ 2 ln L ( θ ) = − 1 n ∑ i = 1 n ∂ 2 ln f ( X i ; θ ) ∂ θ 2 → p − E [ ∂ 2 ln f ( X i ; θ ) ∂ θ 2 ] = I ( θ ) ( 2 ) . {\displaystyle -n^{-1}{\frac {d^{2}}{d\theta ^{2}}}\ln {\mathcal {L}}(\theta )=-{\frac {1}{n}}\sum _{i=1}^{n}{\frac {\partial ^{2}\ln f(X_{i};\theta )}{\partial \theta ^{2}}}\;{\overset {p}{\to }}\;-\mathbb {E} \left[{\frac {\partial ^{2}\ln f(X_{i};\theta )}{\partial \theta ^{2}}}\right]={\mathcal {I}}(\theta )\qquad (2).} It can be shown in a quite complicated way (and using regularity conditions) that − ( 2 n ) − 1 ( θ ^ − θ ) d 3 d θ 3 ln L ( θ ) | θ = θ ∗ → p 0. ( 3 ) . {\displaystyle -(2n)^{-1}({\hat {\theta }}-\theta ){\frac {d^{3}}{d\theta ^{3}}}\ln {\mathcal {L}}(\theta ){\bigg \vert }_{\theta =\theta ^{*}}\;{\overset {p}{\to }}\;0.\qquad (3).} Considering ( 2 ) {\displaystyle (2)} and ( 3 ) {\displaystyle (3)} , using property of convergence in probability, we have − n − 1 d 2 d θ 2 ln L ( θ ) − ( 2 n ) − 1 ( θ ^ − θ ) d 3 d θ 3 ln L ( θ ) | θ = θ ∗ → p I ( θ ) + 0 = I ( θ ) ( 4 ) . {\displaystyle -n^{-1}{\frac {d^{2}}{d\theta ^{2}}}\ln {\mathcal {L}}(\theta )-(2n)^{-1}({\hat {\theta }}-\theta ){\frac {d^{3}}{d\theta ^{3}}}\ln {\mathcal {L}}(\theta ){\bigg \vert }_{\theta =\theta ^{*}}\;{\overset {p}{\to }}\;{\mathcal {I}}(\theta )+0={\mathcal {I}}(\theta )\qquad (4).} Considering ( 1 ) {\displaystyle (1)} and ( 4 ) {\displaystyle (4)} , and using Slutsky's theorem, we have n ( θ ^ − θ ) = d d θ ln L ( θ ) / n − n − 1 d 2 d θ 2 ln L ( θ ) − ( 2 n ) − 1 ( θ ^ − θ ) d 3 d θ 3 ln L ( θ ) | θ = θ ∗ → d Y I ( θ ) {\displaystyle {\sqrt {n}}({\hat {\theta }}-\theta )={\frac {{\frac {d}{d\theta }}\ln {\mathcal {L}}(\theta )/{\sqrt {n}}}{-n^{-1}{\frac {d^{2}}{d\theta ^{2}}}\ln {\mathcal {L}}(\theta )-(2n)^{-1}({\hat {\theta }}-\theta ){\frac {d^{3}}{d\theta ^{3}}}\ln {\mathcal {L}}(\theta ){\bigg \vert }_{\theta =\theta ^{*}}}}\;{\overset {d}{\to }}\;{\frac {Y}{{\mathcal {I}}(\theta )}}} where Y ∼ N ( 0 , I ( θ ) ) {\displaystyle Y\sim {\mathcal {N}}(0,{\mathcal {I}}(\theta ))} , and hence Y I ( θ ) ∼ N ( 0 , I ( θ ) [ I ( θ ) ] 2 ) ≡ N ( 0 , 1 / I ( θ ) ) {\displaystyle {\frac {Y}{{\mathcal {I}}(\theta )}}\sim {\mathcal {N}}\left(0,{\frac {{\mathcal {I}}(\theta )}{[{\mathcal {I}}(\theta )]^{2}}}\right)\equiv {\mathcal {N}}(0,1/{\mathcal {I}}(\theta ))} . It follows that n ( θ ^ − θ ) → d N ( 0 , 1 / I ( θ ) ) . {\displaystyle {\sqrt {n}}({\hat {\theta }}-\theta )\;{\overset {d}{\to }}\;{\mathcal {N}}(0,1/{\mathcal {I}}(\theta )).} This means θ ^ − θ → d N ( 0 , 1 / ( n I ( θ ) ) ) ≡ N ( 0 , 1 / I n ( θ ) ) , {\displaystyle {\hat {\theta }}-\theta \;{\overset {d}{\to }}\;{\mathcal {N}}(0,1/(n{\mathcal {I}}(\theta )))\equiv {\mathcal {N}}(0,1/{\mathcal {I}}_{n}(\theta )),} and thus θ ^ − θ 1 / I n ( θ ) → d N ( 0 , 1 / ( n I ( θ ) ) 1 / I n ( θ ) ⏟ = n I ( θ ) ) ≡ N ( 0 , 1 ) {\displaystyle {\frac {{\hat {\theta }}-\theta }{\sqrt {1/{\mathcal {I}}_{n}(\theta )}}}\;{\overset {d}{\to }}\;{\mathcal {N}}{\Bigg (}0,{\frac {1/(n{\mathcal {I}}(\theta ))}{1/\underbrace {{\mathcal {I}}_{n}(\theta )} _{=n{\mathcal {I}}(\theta )}}}{\Bigg )}\equiv {\mathcal {N}}(0,1)} as desired.
◻ {\displaystyle \Box }
由于在某些情况下我们无法使用 CRLB 来寻找 UMVUE,因此我们将介绍另一种方法来寻找 UMVUE,该方法使用 充分性 和 完备性 的概念。
直观地说,一个充分统计量 T ( X 1 , … , X n ) {\displaystyle T(X_{1},\dotsc ,X_{n})} ,它是给定随机样本 X 1 , … , X n {\displaystyle X_{1},\dotsc ,X_{n}} 的函数,包含估计未知参数(向量) θ {\displaystyle \theta } 所需的所有信息。因此,统计量 T ( X 1 , … , X n ) {\displaystyle T(X_{1},\dotsc ,X_{n})} 本身就“足够”用于估计未知参数(向量) θ {\displaystyle \theta } 。
形式上,我们可以定义和描述充分统计量 如下
备注。
f ( x 1 , … , x n | T ; θ ) = f ( x 1 , … , x n | T ) {\displaystyle f(x_{1},\dotsc ,x_{n}|T;\theta )=f(x_{1},\dotsc ,x_{n}|T)}
其中 f {\displaystyle f} 是 X 1 , … , X n {\displaystyle X_{1},\dotsc ,X_{n}} 的联合概率密度函数或概率质量函数。
这个等式意味着 X 1 , … , X n {\displaystyle X_{1},\dotsc ,X_{n}} 给定( T {\displaystyle T} 的值)的联合条件概率质量函数或概率密度函数,与给定( T {\displaystyle T} 的值)的 X 1 , … , X n {\displaystyle X_{1},\dotsc ,X_{n}} 的联合条件概率质量函数或概率密度函数相同,并且参数值为 θ {\displaystyle \theta } 。
这意味着,即使给定参数值 θ {\displaystyle \theta } ,pmf 或 pdf 也不会发生改变,进而意味着给定 T {\displaystyle T} 的值后, X 1 , … , X n {\displaystyle X_{1},\dotsc ,X_{n}} 的联合条件 pmf 或 pdf 实际上不依赖于 θ {\displaystyle \theta } 。
f ( x 1 , … , x n | T ) {\displaystyle f(x_{1},\dotsc ,x_{n}|T)} 表示 f X 1 , … , X n | T ( x 1 , … , x n | t ) {\displaystyle f_{X_{1},\dotsc ,X_{n}|T}(x_{1},\dotsc ,x_{n}|t)} 在实现 T = t {\displaystyle T=t} 之前 ,它是一个随机变量(随机性来自 T {\displaystyle T} )。
在实现 T = t {\displaystyle T=t} 之后,公式仍然成立( T {\displaystyle T} 被修改为 T = t {\displaystyle T=t} )。
让我们正式说明一下上面关于充分统计量变换的结论。
现在,我们讨论一个帮助我们检验统计量充分性的定理,即(Fisher-Neyman)分解定理 。
定理。 (分解定理)设 f ( x 1 , … , x n ; θ ) {\displaystyle f(x_{1},\dotsc ,x_{n};\theta )} 是随机样本 X 1 , … , X n {\displaystyle X_{1},\dotsc ,X_{n}} 的联合概率密度函数或概率质量函数。统计量 T = T ( X 1 , … , X n ) {\displaystyle T=T(X_{1},\dotsc ,X_{n})} 是 θ {\displaystyle \theta } 的 充分统计量 当且仅当存在函数 g {\displaystyle g} 和 h {\displaystyle h} 使得 f ( x 1 , … , x n ; θ ) = g ( T ( x 1 , … , x n ) ; θ ) h ( x 1 , … , x n ) {\displaystyle f(x_{1},\dotsc ,x_{n};\theta )=g(T(x_{1},\dotsc ,x_{n});\theta )h(x_{1},\dotsc ,x_{n})} 其中 g {\displaystyle g} 依赖于 x 1 , … , x n {\displaystyle x_{1},\dotsc ,x_{n}} 仅通过 T ( x 1 , … , x n ) {\displaystyle T(x_{1},\dotsc ,x_{n})} ,而 h {\displaystyle h} 不 依赖于 θ {\displaystyle \theta } 。
证明。 由于连续情况的证明相当复杂,我们将只给出离散情况的证明。为了便于表示,令 X = ( X 1 , … , X n ) {\displaystyle \mathbf {X} =(X_{1},\dotsc ,X_{n})} , T = T ( X 1 , … , X n ) {\displaystyle T=T(X_{1},\dotsc ,X_{n})} , x = ( x 1 , … , x n ) {\displaystyle \mathbf {x} =(x_{1},\dotsc ,x_{n})} , 和 t = T ( x 1 , … , x n ) {\displaystyle t=T(x_{1},\dotsc ,x_{n})} ,因此有这些不同类型的pmf的符号。根据定义, f X | T ( x | t ; θ ) = f X | T ( x , t ) {\displaystyle f_{\mathbf {X} |T}(\mathbf {x} |t;\theta )=f_{\mathbf {X} |T}(\mathbf {x} ,t)} 。此外,我们有 X = x ⟺ X = x ∩ T ( X ) = T ( x ) ⟺ X = x ∩ T = t {\displaystyle \mathbf {X} =\mathbf {x} \iff \mathbf {X} =\mathbf {x} \cap T(\mathbf {X} )=T(\mathbf {x} )\iff \mathbf {X} =\mathbf {x} \cap T=t} 。因此,我们可以写成 f X , T ( x , t ; θ ) = f X ( x ; θ ) ( ∗ ) {\displaystyle f_{\mathbf {X} ,T}(\mathbf {x} ,t;\theta )=f_{\mathbf {X} }(\mathbf {x} ;\theta )\quad (*)} .
"当且仅当" ( ⇒ {\displaystyle \Rightarrow } ) 方向:假设 T {\displaystyle T} 是一个充分统计量。那么,我们选择 g ( t ; θ ) = f T ( t ; θ ) {\displaystyle g(t;\theta )=f_{T}(t;\theta )} 和 h ( x ) = f X | T ( x | t ) {\displaystyle h(\mathbf {x} )=f_{\mathbf {X} |T}(\mathbf {x} |t)} ,它不依赖于 θ {\displaystyle \theta } ,这是根据充分统计量的定义。剩下的就是验证这个等式对于这个选择是否成立。
因此, f X ( x ; θ ) = f X , T ( x , t ; θ ) = def f X | T ( x | t ; θ ) f T ( t ; θ ) = sufficiency f X | T ( x | t ) f T ( t ; θ ) = h ( x ) g ( t ; θ ) . {\displaystyle f_{\mathbf {X} }(\mathbf {x} ;\theta )=f_{\mathbf {X} ,T}(\mathbf {x} ,t;\theta ){\overset {\text{ def }}{=}}f_{\mathbf {X} |T}(\mathbf {x} |t;\theta )f_{T}(t;\theta ){\overset {\text{ sufficiency }}{=}}f_{\mathbf {X} |T}(\mathbf {x} |t)f_{T}(t;\theta )=h(\mathbf {x} )g(t;\theta ).}
"if" ( ⇐ {\displaystyle \Leftarrow } ) direction: Assume we can write f X ( x ; θ ) = g ( t ; θ ) h ( x ) {\displaystyle f_{\mathbf {X} }(\mathbf {x} ;\theta )=g(t;\theta )h(\mathbf {x} )} . Then, f T ( t ; θ ) = marginal pmf ∑ x f X , T ( x , t ; θ ) = (*) ∑ x f X ( x ; θ ) = assumption ∑ x g ( t ; θ ) h ( x ) = g ( t ; θ ) ⏟ independent from x ∑ x h ( x ) . {\displaystyle f_{T}(t;\theta ){\overset {\text{ marginal pmf }}{=}}\sum _{\mathbf {x} }^{}f_{\mathbf {X} ,T}(\mathbf {x} ,t;\theta ){\overset {\text{ (*) }}{=}}\sum _{\mathbf {x} }^{}f_{\mathbf {X} }(\mathbf {x} ;\theta ){\overset {\text{ assumption }}{=}}\sum _{\mathbf {x} }^{}g(t;\theta )h(\mathbf {x} )=\underbrace {g(t;\theta )} _{{\text{independent from }}\mathbf {x} }\sum _{\mathbf {x} }^{}h(\mathbf {x} ).} Now, we aim to show that f X | T ( x | t ) {\displaystyle f_{\mathbf {X} |T}(\mathbf {x} |t)} does not depend on θ {\displaystyle \theta } , which means T {\displaystyle T} is a sufficient statistic for θ {\displaystyle \theta } . We have f X | T ( x | t ) = def f X , T ( x , t ; θ ) f T ( t ; θ ) = (*) f X ( x ; θ ) f T ( t ; θ ) = g ( t ; θ ) h ( x ) ⏞ assumption g ( t ; θ ) ∑ x h ( x ) ⏟ above = h ( x ) ∑ x h ( x ) , {\displaystyle f_{\mathbf {X} |T}(\mathbf {x} |t){\overset {\text{ def }}{=}}{\frac {f_{\mathbf {X} ,T}(\mathbf {x} ,t;\theta )}{f_{T}(t;\theta )}}{\overset {\text{ (*) }}{=}}{\frac {f_{\mathbf {X} }(\mathbf {x} ;\theta )}{f_{T}(t;\theta )}}={\frac {\overbrace {g(t;\theta )h(\mathbf {x} )} ^{\text{assumption}}}{\underbrace {g(t;\theta )\sum _{\mathbf {x} }^{}h(\mathbf {x} )} _{\text{above}}}}={\frac {h(\mathbf {x} )}{\sum _{\mathbf {x} }^{}h(\mathbf {x} )}},} which does not depend on θ {\displaystyle \theta } , as desired.
◻ {\displaystyle \Box }
备注。
h ( x 1 , … , x n ) {\displaystyle h(x_{1},\dotsc ,x_{n})} 也可以是一个常数,它显然不依赖于 θ {\displaystyle \theta } 。
示例。 考虑一个来自 N ( μ , σ 2 ) {\displaystyle {\mathcal {N}}(\mu ,\sigma ^{2})} 的随机样本 X 1 , … , X n {\displaystyle X_{1},\dotsc ,X_{n}} 。找到 θ = ( μ , σ 2 ) {\displaystyle \theta =(\mu ,\sigma ^{2})} 的充分统计量。
Solution : The joint pdf of X 1 , … , X n {\displaystyle X_{1},\dotsc ,X_{n}} is f ( x 1 , … , x n ; θ ) = ∏ i = 1 n 1 2 π σ 2 exp ( − ( x i − μ ) 2 2 σ 2 ) = ( 2 π σ 2 ) − n / 2 exp ( ∑ i = 1 n ( x i − μ ) 2 2 σ 2 ) = ( 2 π σ 2 ) − n / 2 exp ( ∑ i = 1 n ( x i − x ¯ + x ¯ − μ ) 2 2 σ 2 ) = ( 2 π σ 2 ) − n / 2 exp ( ∑ i = 1 n ( x i − x ¯ ) 2 + 2 ( x i − x ¯ ) ( x ¯ − μ ) + ( x ¯ − μ ) 2 2 σ 2 ) = ( 2 π σ 2 ) − n / 2 exp ( ∑ i = 1 n ( x i − x ¯ ) 2 + ( x ¯ − μ ) 2 2 σ 2 ) ( ∑ i = 1 n ( x i − x ¯ ) ( x ¯ − μ ) = ( x ¯ − μ ) ∑ i = 1 n ( x i − x ¯ ) = ( x ¯ − μ ) ( ∑ i = 1 n x i − ∑ i = 1 n x ¯ ) = ( x ¯ − μ ) ( n x ¯ − n x ¯ ) = 0 ) = ( 2 π σ 2 ) − n / 2 exp ( 1 2 σ 2 ( ∑ i = 1 n ( x i − x ¯ ) 2 + ∑ i = 1 n ( x ¯ − μ ) 2 ) ) = ( 2 π ) − n / 2 ⏟ h ( x 1 , … , x n ) σ − n exp ( 1 2 σ 2 ( n s 2 + n ( x ¯ − μ ) 2 ) ) ⏟ g ( T ( x 1 , … , x n ) ; θ ) ( ( x ¯ − μ ) 2 is independent from i ) . {\displaystyle {\begin{aligned}f(x_{1},\dotsc ,x_{n};\theta )&=\prod _{i=1}^{n}{\frac {1}{\sqrt {2\pi \sigma ^{2}}}}\exp \left(-{\frac {(x_{i}-\mu )^{2}}{2\sigma ^{2}}}\right)\\&=(2\pi \sigma ^{2})^{-n/2}\exp \left(\sum _{i=1}^{n}{\frac {(x_{i}-\mu )^{2}}{2\sigma ^{2}}}\right)\\&=(2\pi \sigma ^{2})^{-n/2}\exp \left(\sum _{i=1}^{n}{\frac {(x_{i}{\color {darkgreen}-{\overline {x}}+{\overline {x}}}-\mu )^{2}}{2\sigma ^{2}}}\right)\\&=(2\pi \sigma ^{2})^{-n/2}\exp \left(\sum _{i=1}^{n}{\frac {(x_{i}{\color {darkgreen}-{\overline {x}}})^{2}+2(x_{i}-{\overline {x}})({\overline {x}}-\mu )+({\color {darkgreen}{\overline {x}}}-\mu )^{2}}{2\sigma ^{2}}}\right)\\&=(2\pi \sigma ^{2})^{-n/2}\exp \left(\sum _{i=1}^{n}{\frac {(x_{i}{\color {darkgreen}-{\overline {x}}})^{2}+({\color {darkgreen}{\overline {x}}}-\mu )^{2}}{2\sigma ^{2}}}\right)&\left(\sum _{i=1}^{n}(x_{i}-{\overline {x}})({\overline {x}}-\mu )=({\overline {x}}-\mu )\sum _{i=1}^{n}(x_{i}-{\overline {x}})=({\overline {x}}-\mu )\left(\sum _{i=1}^{n}x_{i}-\sum _{i=1}^{n}{\overline {x}}\right)=({\overline {x}}-\mu )(n{\overline {x}}-n{\overline {x}})=0\right)\\&=(2\pi \sigma ^{2})^{-n/2}\exp \left({\frac {1}{2\sigma ^{2}}}\left(\sum _{i=1}^{n}(x_{i}{\color {darkgreen}-{\overline {x}}})^{2}+\sum _{i=1}^{n}({\color {darkgreen}{\overline {x}}}-\mu )^{2}\right)\right)\\&=\underbrace {(2\pi )^{-n/2}} _{h(x_{1},\dotsc ,x_{n})}\underbrace {\sigma ^{-n}\exp \left({\frac {1}{2\sigma ^{2}}}\left(ns^{2}+n({\overline {x}}-\mu )^{2}\right)\right)} _{g(T(x_{1},\dotsc ,x_{n});\theta )}&\left(({\overline {x}}-\mu )^{2}{\text{ is independent from }}i\right).\\\end{aligned}}} Notice that the function g {\displaystyle g} depends on x 1 , … , x n {\displaystyle x_{1},\dotsc ,x_{n}} only through T ( x 1 , … , x n ) = ( x ¯ , s 2 ) {\displaystyle T(x_{1},\dotsc ,x_{n})=({\overline {x}},s^{2})} , so we can conclude that T ( X 1 , … , X n ) = ( X ¯ , S 2 ) {\displaystyle T(X_{1},\dotsc ,X_{n})=({\overline {X}},S^{2})} .
备注。
我们也可以写 ( X ¯ , S 2 ) {\displaystyle ({\overline {X}},S^{2})} 作为 ( S 2 , X ¯ ) {\displaystyle (S^{2},{\overline {X}})} ,它也是 θ {\displaystyle \theta } 的充分统计量。
直观地,这是因为后者也包含相同的统计量,因此包含相同的信息。
或者,我们可以定义函数 v {\displaystyle v} 作为 ( z 1 , z 2 ) ↦ ( z 2 , z 1 ) {\displaystyle (z_{1},z_{2})\mapsto (z_{2},z_{1})} ,这是一个双射函数,所以 v ( X ¯ , S 2 ) = ( S 2 , X ¯ ) {\displaystyle v({\overline {X}},S^{2})=(S^{2},{\overline {X}})} 也是 θ {\displaystyle \theta } 的充分统计量。
我们需要从 " ( 2 π σ 2 ) − n / 2 {\displaystyle (2\pi \sigma ^{2})^{-n/2}} " 中分离出 " σ − n {\displaystyle \sigma ^{-n}} ",因为对于函数 h ( x 1 , … , x n ) {\displaystyle h(x_{1},\dotsc ,x_{n})} ,它不能依赖于 θ = ( μ , σ 2 ) {\displaystyle \theta =(\mu ,\sigma ^{2})} 。因此,我们不能在 h ( x 1 , … , x n ) {\displaystyle h(x_{1},\dotsc ,x_{n})} 函数的定义中包含 " σ − n {\displaystyle \sigma ^{-n}} "。
在这种情况下,定义 g {\displaystyle g} 和 h {\displaystyle h} 函数有很多方法。
对于一些属于 指数族 的“良好”分布,可以使用另一种替代方法轻松方便地找到充分统计量。这种方法之所以有效,是因为这些分布的 pdf 或 pmf 具有“良好”的形式,可以表征如下:
定义。 (指数族)随机变量 X {\displaystyle X} 的分布属于指数分布,如果 X {\displaystyle X} 的 pdf 或 pmf 具有以下形式 f ( x ; θ ) = h ( x ) g ( θ ) exp ( ∑ i = 1 s η i ( θ ) T i ( x ) ) {\displaystyle f(x;\theta )=h(x)g(\theta )\exp \left(\sum _{i=1}^{\color {darkgreen}s}\eta _{i}(\theta )T_{i}(x)\right)} 其中 θ = ( θ 1 , … , θ s ) ∈ Θ ⊆ R s {\displaystyle \theta =(\theta _{1},\dotsc ,\theta _{\color {darkgreen}s})\in \Theta \subseteq \mathbb {R} ^{\color {darkgreen}s}} ,对于一些函数 h , g , η i , T i {\displaystyle h,g,\eta _{i},T_{i}} ( i = 1 , 2 … , s {\displaystyle i=1,2\dotsc ,s} )。
定理。 (指数族的充分统计量) 令 X 1 , … , X n {\displaystyle X_{1},\dotsc ,X_{n}} 是来自指数族分布的随机样本,其概率密度函数或概率质量函数为 f ( x ; θ ) {\displaystyle f(x;\theta )} ,其中 θ ∈ R s {\displaystyle \theta \in \mathbb {R} ^{s}} 。那么,充分统计量 对于 θ {\displaystyle \theta } 是 T ( X 1 , … , X n ) = ( ∑ j = 1 n T 1 ( X j ) , … , ∑ j = 1 n T s ( X j ) ) . {\displaystyle T(X_{1},\dotsc ,X_{n})=\left(\sum _{j=1}^{n}T_{1}(X_{j}),\dotsc ,\sum _{j=1}^{n}T_{s}(X_{j})\right).}
Proof. Since the distribution belongs to the exponential family, the joint pdf or pmf of X 1 , … , X n {\displaystyle X_{1},\dotsc ,X_{n}} can be expressed as f ( x 1 , … , x n ; θ ) = ∏ j = 1 n [ h ( x j ) g ( θ ) exp ( ∑ i = 1 s η i ( θ ) T i ( x j ) ) ] = [ ∏ j = 1 n h ( x j ) ] ( g ( θ ) ) n exp ( ∑ j = 1 n ∑ i = 1 s η i ( θ ) T i ( x j ) ) = [ ∏ j = 1 n h ( x j ) ] ( g ( θ ) ) n exp ( ∑ i = 1 s ∑ j = 1 n η i ( θ ) T i ( x j ) ) ( changing summation order, where the upper bounds are constants ) = [ ∏ j = 1 n h ( x j ) ] ( g ( θ ) ) n exp ( ∑ i = 1 s η i ( θ ) ⏟ independent from j ∑ j = 1 n T i ( x j ) ) = [ ∏ j = 1 n h ( x j ) ] ( g ( θ ) ) n exp ( η 1 ( θ ) ∑ j = 1 n T 1 ( x j ) + ⋯ + η s ( θ ) ∑ j = 1 n T s ( x j ) ) . {\displaystyle {\begin{aligned}f(x_{1},\dotsc ,x_{n};\theta )&=\prod _{{\color {blue}j}=1}^{n}\left[h(x_{\color {blue}j})g(\theta )\exp \left(\sum _{i=1}^{\color {darkgreen}s}\eta _{i}(\theta )T_{i}(x_{\color {blue}j})\right)\right]\\&=\left[\prod _{j=1}^{n}h(x_{j})\right](g(\theta ))^{n}\exp \left(\sum _{{\color {blue}j}=1}^{n}\sum _{i=1}^{s}\eta _{i}(\theta )T_{i}(x_{\color {blue}j})\right)\\&=\left[\prod _{j=1}^{n}h(x_{j})\right](g(\theta ))^{n}\exp \left(\sum _{i=1}^{s}\sum _{{\color {blue}j}=1}^{n}\eta _{i}(\theta )T_{i}(x_{\color {blue}j})\right)&({\text{changing summation order, where the upper bounds are constants}})\\&=\left[\prod _{j=1}^{n}h(x_{j})\right](g(\theta ))^{n}\exp \left(\sum _{i=1}^{s}\underbrace {\eta _{i}(\theta )} _{{\text{independent from }}j}\sum _{{\color {blue}j}=1}^{n}T_{i}(x_{\color {blue}j})\right)\\&={\color {purple}\left[\prod _{j=1}^{n}h(x_{j})\right]}{\color {red}(g(\theta ))^{n}\exp \left(\eta _{1}(\theta )\sum _{{\color {blue}j}=1}^{n}T_{1}(x_{\color {blue}j})+\dotsb +\eta _{s}(\theta )\sum _{{\color {blue}j}=1}^{n}T_{s}(x_{\color {blue}j})\right)}.\\\end{aligned}}} From here, for applying the factorization theorem, we can identify the purple part of the function as " h ( x 1 , … , x n ) {\displaystyle h(x_{1},\dotsc ,x_{n})} ", and the red part of the function as " g ( T ( x 1 , … , x n ) ; θ ) {\displaystyle g(T(x_{1},\dotsc ,x_{n});\theta )} ". We can notice that the red part of the function depends on x 1 , … , x n {\displaystyle x_{1},\dotsc ,x_{n}} only through ( ∑ j = 1 n T 1 ( x j ) , … , ∑ j = 1 n T s ( x j ) ) {\displaystyle \left(\sum _{j=1}^{n}T_{1}(x_{j}),\dotsc ,\sum _{j=1}^{n}T_{s}(x_{j})\right)} . The result follows.
◻ {\displaystyle \Box }
例子。 考虑来自 N ( μ , σ 2 ) {\displaystyle {\mathcal {N}}(\mu ,\sigma ^{2})} 的随机样本 X 1 , … , X n {\displaystyle X_{1},\dotsc ,X_{n}} 。证明 θ = ( μ , σ 2 ) {\displaystyle \theta =(\mu ,\sigma ^{2})} 的充分统计量是 ( X ¯ , S 2 ) {\displaystyle \left({\overline {X}},S^{2}\right)} ,利用寻找指数族充分统计量的结果。
证明。 从之前的例子中,我们已经证明了正态分布属于指数族,从那里的表达式我们可以看到 θ {\displaystyle \theta } 的充分统计量是 T = ( ∑ j = 1 n X , ∑ j = 1 n X 2 ) = ( n X ¯ , n X 2 ¯ ) {\displaystyle T=\left(\sum _{j=1}^{n}X,\sum _{j=1}^{n}X^{2}\right)=\left(n{\overline {X}},n{\overline {X^{2}}}\right)} 。
由于 S 2 = 1 n ∑ j = 1 n ( X j − X ¯ ) 2 = 1 n ∑ j = 1 n ( X j 2 − 2 X j X ¯ + ( X ¯ ) 2 ) = ∑ j = 1 n X j 2 n − 2 X ¯ n ∑ j = 1 n X j + ( X ¯ ) 2 = X 2 ¯ − 2 ( X ¯ ) 2 + ( X ¯ ) 2 = X 2 ¯ − ( X ¯ ) 2 {\displaystyle S^{2}={\frac {1}{n}}\sum _{j=1}^{n}(X_{j}-{\overline {X}})^{2}={\frac {1}{n}}\sum _{j=1}^{n}\left(X_{j}^{2}-2X_{j}{\overline {X}}+({\overline {X}})^{2}\right)={\frac {\sum _{j=1}^{n}X_{j}^{2}}{n}}-{\frac {2{\overline {X}}}{n}}\sum _{j=1}^{n}X_{j}+({\overline {X}})^{2}={\overline {X^{2}}}-2({\overline {X}})^{2}+({\overline {X}})^{2}={\overline {X^{2}}}-({\overline {X}})^{2}} ,我们可以定义函数 v {\displaystyle v} 如下 ( z 1 , z 2 ) ↦ ( z 1 / n , z 2 / n − ( z 1 / n ) 2 ) , {\displaystyle (z_{1},z_{2})\mapsto \left(z_{1}/n,z_{2}/n-(z_{1}/n)^{2}\right),} 可以证明这是一个双射函数。
因此, v ( T ) = ( X ¯ , S 2 ) {\displaystyle v(T)=\left({\overline {X}},S^{2}\right)} 也是 θ {\displaystyle \theta } 的充分统计量。
◻ {\displaystyle \Box }
现在,我们将开始讨论充分统计量与UMVUE的关系。我们从 Rao-Blackwell 定理 开始讨论。
要实际确定 UMVUE,我们需要另一个定理,称为 莱曼-谢费定理 ,该定理基于 Rao-Blackwell 定理,并且需要 完备性 的概念。
当随机样本 X 1 , … , X n {\displaystyle X_{1},\dotsc ,X_{n}} 来自指数族分布时,可以很容易地找到一个完备统计量,类似于充分统计量的案例。
定理。 (指数族的完备统计量) 如果 X 1 , … , X n {\displaystyle X_{1},\dotsc ,X_{n}} 是来自指数族分布的随机样本,其中未知参数(向量) θ ∈ Θ ⊆ R s {\displaystyle \theta \in \Theta \subseteq \mathbb {R} ^{\color {darkgreen}s}} ,则 T ( X 1 , … , X n ) = ( ∑ j = 1 n T 1 ( X j ) , ∑ j = 1 n T 2 ( X j ) , … , ∑ j = 1 n T s ( X j ) ) {\displaystyle T(X_{1},\dotsc ,X_{n})=\left(\sum _{j=1}^{n}T_{1}(X_{j}),\sum _{j=1}^{n}T_{2}(X_{j}),\dotsc ,\sum _{j=1}^{n}T_{\color {darkgreen}s}(X_{j})\right)} 是一个完备统计量, 前提是 参数空间 Θ {\displaystyle \Theta } 包含 R s {\displaystyle \mathbb {R} ^{\color {darkgreen}s}} 中的一个开集 .
证明。 省略。
◻ {\displaystyle \Box }
示例: 考虑来自 N ( μ , σ 2 ) {\displaystyle {\mathcal {N}}(\mu ,\sigma ^{2})} 的随机样本 X 1 , … , X n {\displaystyle X_{1},\dotsc ,X_{n}} 。令未知参数向量为 θ = ( μ , σ 2 ) {\displaystyle \theta =(\mu ,\sigma ^{2})} 。
(a) 证明 θ {\displaystyle \theta } 的充分统计量,即 ( X ¯ , S 2 ) {\displaystyle \left({\overline {X}},S^{2}\right)} ,也是一个完备统计量。
(b) 因此,证明 X ¯ {\displaystyle {\overline {X}}} 和 n n − 1 ⋅ S 2 {\displaystyle {\frac {n}{n-1}}\cdot S^{2}} 分别是 μ {\displaystyle \mu } 和 σ 2 {\displaystyle \sigma ^{2}} 的UMVUE。
解 :
(a)
(b)
示例: 假设从伯努利分布中抽取一个随机样本 X 1 , … , X n {\displaystyle X_{1},\dotsc ,X_{n}} ,其成功概率为 p {\displaystyle p} ,即 Ber ( p ) {\displaystyle \operatorname {Ber} (p)} ,其概率质量函数为 f ( x ; p ) = p x ( 1 − p ) 1 − x , x = 0 , 1 {\displaystyle f(x;p)=p^{x}(1-p)^{1-x},\quad x=0,1} .
(a) 求 p {\displaystyle p} 的一个完备充分统计量 T {\displaystyle T} .
(b) 从而,求 p {\displaystyle p} 的一致最小方差无偏估计 (UMVUE)。
(c) 证明 1 { X 1 = 1 } {\displaystyle \mathbf {1} \{X_{1}=1\}} 是 p {\displaystyle p} 的无偏估计量,且 E [ 1 { X 1 = 1 } | T ] {\displaystyle \mathbb {E} [\mathbf {1} \{X_{1}=1\}|T]} 是 p {\displaystyle p} 的 UMVUE。
解
(a) 概率质量函数 f ( x ; p ) = p x ( 1 − p ) 1 − x = ( 1 − p ) ( p 1 − p ) x = ( 1 ) ⏟ h ( x ) ( 1 − p ) ⏟ g ( θ ) exp ( x ⏟ T ( x ) ln ( p 1 − p ) ⏟ η ( p ) ) {\displaystyle f(x;p)=p^{x}(1-p)^{1-x}=(1-p)\left({\frac {p}{1-p}}\right)^{x}=\underbrace {(1)} _{h(x)}\underbrace {(1-p)} _{g(\theta )}\exp \left(\underbrace {x} _{T(x)}\underbrace {\ln \left({\frac {p}{1-p}}\right)} _{\eta (p)}\right)} 。这意味着伯努利分布属于指数族。此外,参数空间 Θ = { p : 0 ≤ p ≤ 1 } {\displaystyle \Theta =\{p:0\leq p\leq 1\}} 在 R {\displaystyle \mathbb {R} } 中包含一个开集。因此, T = ∑ j = 1 n X j {\displaystyle T=\sum _{j=1}^{n}X_{j}} 是 p {\displaystyle p} 的一个完备充分统计量。
(b) 注意到 E [ T / n ] = E [ X ¯ ] = n p n = p {\displaystyle \mathbb {E} [T/n]=\mathbb {E} [{\overline {X}}]={\frac {np}{n}}=p} 。因此, X ¯ {\displaystyle {\overline {X}}} (它是 T {\displaystyle T} 的函数)是 p {\displaystyle p} 的UMVUE。
(c)
证明。 由于 E [ 1 { X 1 = 1 } ] = ( 1 ) P ( X 1 = 1 ) = p {\displaystyle \mathbb {E} [\mathbf {1} \{X_{1}=1\}]=(1)\mathbb {P} (X_{1}=1)=p} , 1 { X 1 = 1 } {\displaystyle \mathbf {1} \{X_{1}=1\}} 是 p {\displaystyle p} 的无偏估计量。
Now, we consider E [ 1 { X 1 = 1 } | T ] = E [ 1 { X 1 = 1 } | ∑ j = 1 n X j ] {\displaystyle \mathbb {E} [\mathbf {1} \{X_{1}=1\}|T]=\mathbb {E} \left[\mathbf {1} \{X_{1}=1\}|\sum _{j=1}^{n}X_{j}\right]} . We denote ∑ j = 1 n X j {\displaystyle \sum _{j=1}^{n}X_{j}} by S n {\displaystyle S_{n}} . Then, this expectation becomes E [ 1 { X 1 = 1 } | S n ] {\displaystyle \mathbb {E} [\mathbf {1} \{X_{1}=1\}|S_{n}]} . In the following, we evaluate E [ 1 { X 1 = 1 } | S n = s n ] {\displaystyle \mathbb {E} [\mathbf {1} \{X_{1}=1\}|S_{n}=s_{n}]} . E [ 1 { X 1 = 1 } | ∑ j = 1 n X j = s n ] = ( 1 ) P ( 1 { X 1 = 1 } = 1 | ∑ j = 1 n X j = s n ) ( definition ) = P ( X 1 = 1 | ∑ j = 1 n X j = s n ) = P ( ∑ j = 1 n X j = s n | X 1 = 1 ) P ( X 1 = 1 ) P ( ∑ j = 1 n X j = s n ) ( Bayes' theorem ) = P ( ∑ j = 2 n X j = s n − 1 ) ⋅ p P ( ∑ j = 1 n X j = s n ) {\displaystyle {\begin{aligned}\mathbb {E} \left[\mathbf {1} \{X_{1}=1\}|\sum _{j=1}^{n}X_{j}=s_{n}\right]&=(1)\mathbb {P} \left(\mathbf {1} \{X_{1}=1\}=1|\sum _{j=1}^{n}X_{j}=s_{n}\right)&({\text{definition}})\\&=\mathbb {P} \left(X_{1}=1|\sum _{j=1}^{n}X_{j}=s_{n}\right)\\&={\frac {\mathbb {P} \left(\sum _{j=1}^{n}X_{j}=s_{n}|X_{1}=1\right)\mathbb {P} (X_{1}=1)}{\mathbb {P} \left(\sum _{j=1}^{n}X_{j}=s_{n}\right)}}&({\text{Bayes' theorem}})\\&={\frac {\mathbb {P} \left(\sum _{j=2}^{n}X_{j}=s_{n}-1\right)\cdot p}{\mathbb {P} \left(\sum _{j=1}^{n}X_{j}=s_{n}\right)}}\\\end{aligned}}} Notice that ∑ j = 1 n X j {\displaystyle \sum _{j=1}^{n}X_{j}} follows the binomial distribution with n {\displaystyle n} trials with success probability p {\displaystyle p} , i.e., Binom ( n , p ) {\displaystyle \operatorname {Binom} (n,p)} , and ∑ j = 2 n X j ∼ Binom ( n − 1 , p ) {\displaystyle \sum _{j=2}^{n}X_{j}\sim \operatorname {Binom} (n-1,p)} . Hence, P ( ∑ j = 2 n X j = s n − 1 ) ⋅ p P ( ∑ j = 1 n X j = s n ) = ( n − 1 s n − 1 ) p s n − 1 ( 1 − p ) n − 1 − s n + 1 ⋅ p ( n s n ) p s n ( 1 − p ) n − s n ( binomial distribution pmf's ) = ( n − 1 ) ! ( s n − 1 ) ! ( n − s n ) ! n ! s n ! ( n − s n ) ! = ( n − 1 ) ! s n ( s n − 1 ) ! n ( n − 1 ) ! ( s n − 1 ) ! ( s n ! = s n ( s n − 1 ) ! and n ! = n ( n − 1 ) ! ) = s n n . {\displaystyle {\begin{aligned}{\frac {\mathbb {P} \left(\sum _{j=2}^{n}X_{j}=s_{n}-1\right)\cdot p}{\mathbb {P} \left(\sum _{j=1}^{n}X_{j}=s_{n}\right)}}&={\frac {{\binom {n-1}{s_{n}-1}}p^{s_{n}-1}(1-p)^{n-1-s_{n}+1}\cdot p}{{\binom {n}{s_{n}}}p^{s_{n}}(1-p)^{n-s_{n}}}}&({\text{binomial distribution pmf's}})\\&={\frac {\frac {(n-1)!}{(s_{n}-1)!(n-s_{n})!}}{\frac {n!}{s_{n}!(n-s_{n})!}}}\\&={\frac {(n-1)!s_{n}(s_{n}-1)!}{n(n-1)!(s_{n}-1)!}}&(s_{n}!=s_{n}(s_{n}-1)!{\text{ and }}n!=n(n-1)!)\\&={\frac {s_{n}}{n}}.\end{aligned}}} Now, replacing s n {\displaystyle s_{n}} by S n = ∑ j = 1 n X j {\displaystyle S_{n}=\sum _{j=1}^{n}X_{j}} gives E [ 1 { X 1 = 1 } | ∑ j = 1 n X j ] = ∑ j = 1 n X j n = X ¯ , {\displaystyle \mathbb {E} \left[\mathbf {1} \{X_{1}=1\}|\sum _{j=1}^{n}X_{j}\right]={\frac {\sum _{j=1}^{n}X_{j}}{n}}={\overline {X}},} which is the UMVUE of p {\displaystyle p} , as desired.
◻ {\displaystyle \Box }
练习。 我们可以使用 p {\displaystyle p} 的CRLB找到 p {\displaystyle p} 的UMVUE吗?如果可以,请使用这种方法找到它。如果不行,请解释原因。
解
不行。这是因为对数似然函数不可微(它仅当 x = 0 , 1 {\displaystyle x=0,1} 时才具有非零值),因此费舍尔信息未定义。因此,CRLB不存在。
练习。 从具有速率参数 λ {\displaystyle \lambda } 的泊松分布中考虑一个随机样本 X 1 , … , X n {\displaystyle X_{1},\dotsc ,X_{n}} ,其pmf为 f ( x ; λ ) = e − λ λ x x ! {\displaystyle f(x;\lambda )={\frac {e^{-\lambda }\lambda ^{x}}{x!}}} 。
(a) 找到 λ {\displaystyle \lambda } 的一个完备且充分的统计量。
(b) 找到 λ / n {\displaystyle \lambda /n} 的UMVUE。
在前面的部分中,我们讨论了 无偏性 和 效率 。在本节中,我们将讨论另一个称为 一致性 的性质。
Proof. Assume θ ^ {\displaystyle {\hat {\theta }}} is an (asymptotically) unbiased estimator of an unknown parameter θ {\displaystyle \theta } and Var ( θ ^ ) → 0 {\displaystyle \operatorname {Var} ({\hat {\theta }})\to 0} as n → ∞ {\displaystyle n\to \infty } . Since θ ^ {\displaystyle {\hat {\theta }}} is an (asymptotically) unbiased estimator of θ {\displaystyle \theta } , we have lim n → ∞ Bias ( θ ^ ) = 0 {\displaystyle \lim _{n\to \infty }\operatorname {Bias} ({\hat {\theta }})=0} (this is true for both asymptotically unbiased estimator and unbiased estimator of θ {\displaystyle \theta } ). In addition to this, we have by assumption that lim n → ∞ Var ( θ ^ ) = 0 {\displaystyle \lim _{n\to \infty }\operatorname {Var} ({\hat {\theta }})=0} . By definition of mean squared error, these imply that lim n → ∞ MSE ( θ ^ ) = 0 ⇒ lim n → ∞ E [ ( θ ^ − θ ) 2 ] = 0 {\displaystyle \lim _{n\to \infty }\operatorname {MSE} ({\hat {\theta }})=0\Rightarrow \lim _{n\to \infty }\mathbb {E} [({\hat {\theta }}-\theta )^{2}]=0} . Thus, as n → ∞ {\displaystyle n\to \infty } , we have by Chebyshov's inequality (notice that MSE ( θ ^ ) = E [ ( θ ^ − θ ) 2 ] {\displaystyle \operatorname {MSE} ({\hat {\theta }})=\mathbb {E} [({\hat {\theta }}-\theta )^{2}]} exist from above), for each ε > 0 {\displaystyle \varepsilon >0} , P ( | θ ^ − θ | > ε ) ≤ E [ ( θ ^ − θ ) 2 ] ε 2 → 0 ε 2 = 0. {\displaystyle \mathbb {P} (|{\hat {\theta }}-\theta |>\varepsilon )\leq {\frac {\mathbb {E} [({\hat {\theta }}-\theta )^{2}]}{\varepsilon ^{2}}}\to {\frac {0}{\varepsilon ^{2}}}=0.} Since probability is nonnegative ( ≥ 0 {\displaystyle \geq 0} ), and this probability is less than or equal to an expression that tends to be 0 as n → ∞ {\displaystyle n\to \infty } , we conclude that this probability tends to be zero as n → ∞ {\displaystyle n\to \infty } . That is, θ ^ {\displaystyle {\hat {\theta }}} is a consistent estimator of θ {\displaystyle \theta } .
◻ {\displaystyle \Box }
↑ 对于参数向量,它包含控制分布的所有参数。
↑ 当我们不知道它是参数向量还是单个参数时,我们将简单地使用 " θ {\displaystyle \theta } "。如果我们知道它确实是参数向量,我们可以使用 θ {\displaystyle \theta } 代替。
↑ 我们将在#估计量的性质 部分讨论“良好”的一些标准。
↑ β − β ′ = ( max { x 1 , … , x n } + β − max { x 1 , … , x n } ) − ( max { x 1 , … , x n } + β − max { x 1 , … , x n } 2 ) = β − max { x 1 , … , x n } 2 > 0 {\displaystyle \beta -\beta '={\big (}\max\{x_{1},\dotsc ,x_{n}\}+\beta -\max\{x_{1},\dotsc ,x_{n}\}{\big )}-\left(\max\{x_{1},\dotsc ,x_{n}\}+{\frac {\beta -\max\{x_{1},\dotsc ,x_{n}\}}{2}}\right)={\frac {\beta -\max\{x_{1},\dotsc ,x_{n}\}}{2}}>0} 。因此, β ′ < β {\displaystyle \beta '<\beta } 。
↑ 对于每个正整数 r {\displaystyle r} , m r {\displaystyle m_{r}} 总是存在,不像 μ r {\displaystyle \mu _{r}} 。
↑ “均匀”意味着方差相对于其他无偏估计量最小,在参数空间 Θ {\displaystyle \Theta } (即,对于 θ ∈ Θ {\displaystyle \theta \in \Theta } 的每个可能值)。也就是说,方差不仅仅是在 θ {\displaystyle \theta } 的特定值上最小,而是在所有可能的 θ {\displaystyle \theta } 值上。
↑ 这与最小值不同。对于下限 ,它只需要小于所有涉及的方差,而且可能没有方差实际上达到这个下限。然而,对于最小值,它必须是方差值之一。
↑ 注意,这是一个比 Rao-Blackwell 定理中结果更强的结果,后者只说明 Var ( φ ( T ) ) ≤ Var ( W ) {\displaystyle \operatorname {Var} (\varphi (T))\leq \operatorname {Var} (W)} ,对于对应于 φ ( T ) {\displaystyle \varphi (T)} 的 W {\displaystyle W}
↑ 实际上,我们知道 UMVUE 从前面的命题来看必须是唯一的。然而,在这个论证中,当我们证明 φ ( T ) {\displaystyle \varphi (T)} 是 UMVUE 时,我们也自动地证明了它是唯一的。