通常,来自随机实验的随机变量 X {\displaystyle X} 被假设 服从某个具有未知(但固定 )参数(向量)[ 1] θ ∈ R k {\displaystyle \theta \in \mathbb {R} ^{k}} [ 2] ( k {\displaystyle k} 是一个正整数,其值取决于分布)的分布,取值范围为集合 Θ {\displaystyle \Theta } ,称为参数空间。
备注。
在频率统计学 (此处讨论的上下文)中,参数被视为固定 的。
另一方面,在贝叶斯统计学 的上下文中,参数被视为随机变量 。
例如,假设随机变量 X {\displaystyle X} 被假设服从正态分布 N ( μ , σ 2 ) {\displaystyle {\mathcal {N}}(\mu ,\sigma ^{2})} 。那么,在这种情况下,参数向量 θ = ( μ , σ ) ∈ Θ {\displaystyle \theta =(\mu ,\sigma )\in \Theta } 是未知的,参数空间 Θ = { ( μ , σ ) : μ ∈ R , σ > 0 } {\displaystyle \Theta =\{(\mu ,\sigma ):\mu \in \mathbb {R} ,\sigma >0\}} 。通常,通过某些方法估计 这些未知参数来“理解”随机变量 X {\displaystyle X} 更有帮助。我们希望确保估计足够好 [ 3] ,以便理解更准确。
直观地说,随机样本 的(实现) X 1 , … , X n {\displaystyle X_{1},\dotsc ,X_{n}} 应该是有用的。实际上,本章介绍的估计量在某种意义上都是基于随机样本的,这就是点估计 的含义。更准确地说,让我们定义点估计 和点估计值 。
定义。 (点估计)点估计 是一个使用统计量 的值来给出未知参数的单一值估计(可以理解为一个点 )的过程。
备注。
回想一下,统计量 是随机样本的函数。
我们将未知参数称为总体参数 (因为与参数相对应的基础分布称为总体 )。
统计量称为点估计量 ,其实现值称为点估计值 。
点估计量 的符号通常带有 ^ {\displaystyle {\hat {}}} 。
点 估计将与区间 估计形成对比,区间估计使用统计量的值来估计未知参数的区间 可能值。
示例. 假设 X 1 , … , X n {\displaystyle X_{1},\dotsc ,X_{n}} 是从正态分布 N ( μ , σ 2 ) {\displaystyle {\mathcal {N}}(\mu ,\sigma ^{2})} 中抽取的 n {\displaystyle n} 个随机样本。
我们可以使用 统计量 X ¯ = X 1 + ⋯ + X n n {\displaystyle {\overline {X}}={\frac {X_{1}+\dotsb +X_{n}}{n}}} 来直观地估计 μ {\displaystyle \mu } , X ¯ {\displaystyle {\overline {X}}} 被称为 点估计量 ,其实现值 x ¯ {\displaystyle {\overline {x}}} 被称为 点估计 。
或者,我们可以简单地使用统计量 X 1 {\displaystyle X_{1}} (尽管它不涉及 X 2 , … , X n {\displaystyle X_{2},\dotsc ,X_{n}} ,但它仍然可以被视为 X 1 , … , X n {\displaystyle X_{1},\dotsc ,X_{n}} 的函数)来估计 μ {\displaystyle \mu } 。也就是说,我们使用正态分布的第一个随机样本的值作为该分布均值的点估计!直观地说,这种估计量似乎“很糟糕”。
这种仅直接取一个随机样本的估计量称为 单观测估计量 。
我们稍后将讨论如何评估点估计量的“好坏”。
接下来,我们将介绍两个著名的点估计量,它们实际上“很好”,即 最大似然估计量 和 矩估计量 。
顾名思义,这种估计量是 最大化 某种“似然性”的估计量。现在,我们想知道为了以“良好”的方式估计未知参数(复数),应该最大化什么样的“似然性”。此外,如引言部分所述,估计量在某种意义上是基于随机样本的。因此,这种“似然性”也应该在某种意义上基于随机样本。
为了激发最大似然估计量的定义,请考虑以下示例。
示例. 在一个随机实验中,一枚(公平或不公平)硬币被抛掷一次。设随机变量 X = 1 {\displaystyle X=1} 如果出现正面,则为 0 {\displaystyle 0} 否则。那么, X {\displaystyle X} 的概率质量函数为 f ( x ; p ) = p x ( 1 − p ) 1 − x , x ∈ { 0 , 1 } {\displaystyle f(x;p)=p^{x}(1-p)^{1-x},\quad x\in \{0,1\}} ,其中未知参数 p {\displaystyle p} 表示出现正面的概率,并且 p ∈ Θ = { p : p ∈ ( 0 , 1 ) } {\displaystyle p\in \Theta =\{p:p\in (0,1)\}} 。
现在,假设你得到一个随机样本 X 1 , X 2 , … , X n {\displaystyle X_{1},X_{2},\dotsc ,X_{n}} ,通过抛掷硬币 n {\displaystyle n} 次独立试验(这种随机样本称为独立 随机样本,因为所涉及的随机变量是独立的),对应的实现值为 x 1 , x 2 , … , x n {\displaystyle x_{1},x_{2},\dotsc ,x_{n}} 。那么,对于 X 1 = x 1 , X 2 = x 2 , … , and X n = x n {\displaystyle X_{1}=x_{1},X_{2}=x_{2},\dotsc ,{\text{ and }}X_{n}=x_{n}} ,即随机样本恰好具有这些实现值的概率为 P ( X 1 = x 1 ∩ X 2 = x 2 ∩ ⋯ ∩ X n = x n ) = P ( X 1 = x 1 ) P ( X 2 = x 2 ) ⋯ P ( X n = x n ) by independence = f ( x 1 ; p ) f ( x 2 ; p ) ⋯ f ( x n ; p ) = p x 1 ( 1 − p ) 1 − x 1 p x 2 ( 1 − p ) 1 − x 2 ⋯ p x n ( 1 − p ) 1 − x n = p x 1 + x 2 + ⋯ + x n ( 1 − p ) n − x 1 − x 2 − ⋯ − x n . {\displaystyle {\begin{aligned}\mathbb {P} (X_{1}=x_{1}\cap X_{2}=x_{2}\cap \dotsb \cap X_{n}=x_{n})&=\mathbb {P} (X_{1}=x_{1})\mathbb {P} (X_{2}=x_{2})\dotsb \mathbb {P} (X_{n}=x_{n})&{\text{by independence}}\\&=f(x_{1};p)f(x_{2};p)\dotsb f(x_{n};p)\\&=p^{x_{1}}(1-p)^{1-x_{1}}p^{x_{2}}(1-p)^{1-x_{2}}\dotsb p^{x_{n}}(1-p)^{1-x_{n}}\\&=p^{x_{1}+x_{2}+\dotsb +x_{n}}(1-p)^{n-x_{1}-x_{2}-\dotsb -x_{n}}.\end{aligned}}}
备注。
关于符号的说明 :你可能会注意到在 X {\displaystyle X} 的概率质量函数中有一个额外的" ; p {\displaystyle ;p} "。这种符号表示概率质量函数是参数值为 p {\displaystyle p} 的”。它被包含在内是为了强调 我们所指的参数值。
一般来说,我们用 f ( ⋅ ; θ ) {\displaystyle f(\cdot ;\theta )} 表示参数值为 θ {\displaystyle \theta } ( θ {\displaystyle \theta } 可以是向量)的概率质量函数/概率密度函数。
对于相同的含义,存在一些备选的记号: f ( ⋅ | θ ) , f θ ( ⋅ ) , … {\displaystyle f(\cdot |\theta ),f_{\theta }(\cdot ),\dotsc } 。
类似地,我们也有类似的记号,例如 P θ ( A ) , P ( A | θ ) , P ( A ; θ ) , … {\displaystyle \mathbb {P} _{\theta }(A),\mathbb {P} (A|\theta ),\mathbb {P} (A;\theta ),\dotsc } ,表示事件 A {\displaystyle A} 发生的概率,参数值为 θ {\displaystyle \theta } 。(通常使用第一个记号: P θ ( A ) {\displaystyle \mathbb {P} _{\theta }(A)} 。)
对于均值、方差、协方差等,我们也有类似的记号,例如 E θ [ ⋅ ] , Var θ ( ⋅ ) , Cov θ ( ⋅ ) , … {\displaystyle \mathbb {E} _{\theta }[\cdot ],\operatorname {Var} _{\theta }(\cdot ),\operatorname {Cov} _{\theta }(\cdot ),\dotsc } 。
直观地,对于这些特定的实现(固定的),我们希望找到一个 p {\displaystyle p} 的值,使该概率最大化,即使获得的实现成为“最有可能”或“似然最大”的实现。现在,让我们正式定义与最大似然估计相关的术语。
定义。 (似然函数)设 X 1 , … , X n {\displaystyle X_{1},\dotsc ,X_{n}} 是一个具有联合 概率质量函数(pmf)或概率密度函数(pdf) f {\displaystyle f} 的随机样本,参数(向量) θ ∈ Θ {\displaystyle \theta \in \Theta } ( Θ {\displaystyle \Theta } 是参数空间)。假设 x 1 , … , x n {\displaystyle x_{1},\dotsc ,x_{n}} 是随机样本 X 1 , … , X n {\displaystyle X_{1},\dotsc ,X_{n}} 的对应实现。那么,似然函数 ,记为 L ( θ ; x 1 , … , x n ) {\displaystyle {\mathcal {L}}(\theta ;x_{1},\dotsc ,x_{n})} ,是函数 θ ↦ f ( x 1 , … , x n ; θ ) {\displaystyle \theta \mapsto f(x_{1},\dotsc ,x_{n};\theta )} ( θ {\displaystyle \theta } 是一个变量, x 1 , … , x n {\displaystyle x_{1},\dotsc ,x_{n}} 是固定的)。
备注。
为了简便,我们可以使用符号 L ( θ ; x ) {\displaystyle {\mathcal {L}}(\theta ;\mathbf {x} )} 代替 L ( θ ; x 1 , … , x n ) {\displaystyle {\mathcal {L}}(\theta ;x_{1},\dotsc ,x_{n})} 。有时,为了方便起见,我们也可能只写“ L ( θ ; x ) {\displaystyle {\mathcal {L}}(\theta ;\mathbf {x} )} ”。
当我们将 x 1 , … , x n {\displaystyle x_{1},\dotsc ,x_{n}} 替换为 X 1 , … , X n {\displaystyle X_{1},\dotsc ,X_{n}} 时,得到的“似然函数”就变成了一个随机变量,我们用 L ( θ ; X 1 , … , X n ) {\displaystyle {\mathcal {L}}(\theta ;X_{1},\dotsc ,X_{n})} 或 L ( θ ; X ) {\displaystyle {\mathcal {L}}(\theta ;\mathbf {X} )} 表示它。
似然函数与联合概率质量函数或概率密度函数本身形成对比,在联合概率质量函数或概率密度函数中, θ {\displaystyle \theta } 是固定的,而 x 1 , … , x n {\displaystyle x_{1},\dotsc ,x_{n}} 是变量。
当随机样本来自离散 分布时,似然函数的值就是参数向量 θ {\displaystyle \theta } 下概率 P ( X 1 = x 1 ∩ ⋯ ∩ X n = x n ) {\displaystyle \mathbb {P} (X_{1}=x_{1}\cap \dotsb \cap X_{n}=x_{n})} 。也就是说,获得这个特定实现的精确概率。
当随机样本来自连续 分布时,似然函数的值不是 概率。相反,它只是联合概率密度函数在 ( x 1 , … , x n ) {\displaystyle (x_{1},\dotsc ,x_{n})} 处的取值(可能大于1)。但是,该值仍然可以用来“反映”获得“非常接近”这个特定实现的概率,其中概率可以通过对 ( x 1 , … , x n ) {\displaystyle (x_{1},\dotsc ,x_{n})} 周围“非常小”区域内的联合概率密度函数进行积分来获得。
似然函数的自然对数, ln L ( θ ; x ) {\displaystyle \ln {\mathcal {L}}(\theta ;\mathbf {x} )} (或有时为 ln L ( θ ; X ) {\displaystyle \ln {\mathcal {L}}(\theta ;\mathbf {X} )} ),称为对数似然函数 。
请注意,似然函数的“表达式”实际上与联合概率密度函数的表达式相同,只是输入不同。因此,人们仍然可以对似然函数关于 x 1 , … , x n {\displaystyle x_{1},\dotsc ,x_{n}} 进行积分/求和(在某种意义上,在这种情况下,将似然函数转换为联合概率密度函数/概率质量函数),就像它是联合概率密度函数/概率质量函数一样,以获得概率。
现在,让我们找到之前抛硬币示例中未知参数 p {\displaystyle p} 的 MLE。
有时,在求解参数的最大似然估计时,会对参数施加约束。在这种情况下,参数的最大似然估计称为受限 最大似然估计。我们将在以下示例中说明这一点。
示例: 继续前面抛硬币的例子。假设对 p {\displaystyle p} 施加约束,其中 0 ≤ p ≤ 1 2 {\displaystyle 0\leq p\leq {\frac {1}{2}}} 。在这种情况下,求 p {\displaystyle p} 的最大似然估计。
解: 关于推导似然函数和对数似然函数的步骤,在这种情况下是相同的。在没有限制的情况下, p {\displaystyle p} 的最大似然估计是 X ¯ {\displaystyle {\overline {X}}} 。现在,在存在限制的情况下, p {\displaystyle p} 的最大似然估计为 X ¯ {\displaystyle {\overline {X}}} ,仅当 X ¯ ≤ 1 2 {\displaystyle {\overline {X}}\leq {\frac {1}{2}}} 时(我们始终有 X ¯ ≥ 0 {\displaystyle {\overline {X}}\geq 0} ,因为 X ≥ 0 {\displaystyle X\geq 0} )。
If X ¯ > 1 2 {\displaystyle {\overline {X}}>{\frac {1}{2}}} (and thus x ¯ > 1 / 2 {\displaystyle {\overline {x}}>1/2} ), even though ln L ( p ) {\displaystyle \ln {\mathcal {L}}(p)} is maximized at p = x ¯ {\displaystyle p={\overline {x}}} , we cannot set the MLE to be X ¯ {\displaystyle {\overline {X}}} due to the restriction on p {\displaystyle p} : 0 ≤ p ≤ 1 2 {\displaystyle 0\leq p\leq {\frac {1}{2}}} . Under this case, this means d ln L ( p ) d p > 0 {\displaystyle {\frac {d\ln {\mathcal {L}}(p)}{dp}}>0} when p ≤ 1 2 < X ¯ {\displaystyle p\leq {\frac {1}{2}}<{\overline {X}}} (we have d ln L ( p ) d p > 0 {\displaystyle {\frac {d\ln {\mathcal {L}}(p)}{dp}}>0} when p < x ¯ {\displaystyle p<{\overline {x}}} from previous example), i.e., ln L ( p ) {\displaystyle \ln {\mathcal {L}}(p)} is strictly increasing when p ≤ 1 2 {\displaystyle p\leq {\frac {1}{2}}} . Thus, ln L ( p ) {\displaystyle \ln {\mathcal {L}}(p)} is maximized when p = 1 2 {\displaystyle p={\frac {1}{2}}} with the restriction. As a result, the MLE of p {\displaystyle p} is 1 2 {\displaystyle {\frac {1}{2}}} (the MLE can be a constant, which can still be regarded as a function of X 1 , … , X n {\displaystyle X_{1},\dotsc ,X_{n}} ).
因此, p {\displaystyle p} 的最大似然估计可以写成一个分段函数: θ ^ = { X ¯ , X ¯ ≤ 1 2 1 2 , X ¯ > 1 2 {\displaystyle {\hat {\theta }}={\begin{cases}{\overline {X}},&{\overline {X}}\leq {\frac {1}{2}}\\{\frac {1}{2}},&{\overline {X}}>{\frac {1}{2}}\end{cases}}} ,或者可以写成 θ ^ = min { X ¯ , 1 2 } {\displaystyle {\hat {\theta }}=\min \left\{{\overline {X}},{\frac {1}{2}}\right\}} 。
为了找到最大似然估计,我们有时会使用导数检验以外的方法,并且不需要找到对数似然函数。让我们在下面的例子中说明这一点。
示例: 令 X 1 , … , X n {\displaystyle X_{1},\dotsc ,X_{n}} 是来自均匀分布 U [ 0 , β ] {\displaystyle {\mathcal {U}}[0,\beta ]} 的一个随机样本。求 β {\displaystyle \beta } 的最大似然估计。
解: 均匀分布的概率密度函数为 f ( x ; β ) = 1 β 1 { 0 ≤ x ≤ β } {\displaystyle f(x;\beta )={\frac {1}{\beta }}\mathbf {1} \{0\leq x\leq \beta \}} 。因此,似然函数为 L ( β ) = ∏ i = 1 n 1 β 1 { 0 ≤ x i ≤ β } = 1 β n ∏ i = 1 n 1 { 0 ≤ x i ≤ β } {\displaystyle {\mathcal {L}}(\beta )=\prod _{i=1}^{n}{\frac {1}{\beta }}\mathbf {1} \{0\leq x_{i}\leq \beta \}={\frac {1}{\beta ^{n}}}\prod _{i=1}^{n}\mathbf {1} \{0\leq x_{i}\leq \beta \}} 。
为了使 L ( β ) {\displaystyle {\mathcal {L}}(\beta )} 达到最大值,首先,我们需要确保对于每个 i ∈ { 1 , … , n } {\displaystyle i\in \{1,\dotsc ,n\}} ,都有 0 ≤ x i ≤ β {\displaystyle 0\leq x_{i}\leq \beta } ,这样似然函数中指示函数的乘积才不为零(在这种情况下,值实际上为1)。除此之外,由于 β ↦ 1 β n {\displaystyle \beta \mapsto {\frac {1}{\beta ^{n}}}} 是 β {\displaystyle \beta } 的严格递减函数(因为 d d β ( 1 β n ) = − n β n + 1 < 0 {\displaystyle {\frac {d}{d\beta }}\left({\frac {1}{\beta ^{n}}}\right)={\frac {-n}{\beta ^{n+1}}}<0} (我们有 n , β > 0 {\displaystyle n,\beta >0} )),我们应该选择一个尽可能小的 β {\displaystyle \beta } ,使得 1 β n {\displaystyle {\frac {1}{\beta ^{n}}}} ,因此 L ( β ) {\displaystyle {\mathcal {L}}(\beta )} ,尽可能大。
因此,我们应该选择一个尽可能小的 β {\displaystyle \beta } ,前提条件是对于每个 i ∈ { 1 , … , n } {\displaystyle i\in \{1,\dotsc ,n\}} ,都有 0 ≤ x i ≤ β {\displaystyle 0\leq x_{i}\leq \beta } ,这意味着 β ≥ x i {\displaystyle \beta \geq x_{i}} (无论 β {\displaystyle \beta } 如何选择, x i ≥ 0 {\displaystyle x_{i}\geq 0} 总是成立)。由此可知,当 β {\displaystyle \beta } 是 x 1 , … , x n {\displaystyle x_{1},\dotsc ,x_{n}} 的最大值时, L ( β ) {\displaystyle {\mathcal {L}}(\beta )} 达到最大值。因此, β {\displaystyle \beta } 的最大似然估计是 β ^ = max { X 1 , … , X n } {\displaystyle {\hat {\beta }}=\max\{X_{1},\dotsc ,X_{n}\}} 。
练习。 证明如果均匀分布变为 U [ 0 , β ) {\displaystyle {\mathcal {U}}[0,\beta )} ,则 β {\displaystyle \beta } 的最大似然估计不存在。
解答
Proof. In this case, the constraint from the indicator functions become 0 ≤ x i < β {\displaystyle 0\leq x_{i}<\beta } for each i ∈ { 1 , … , n } {\displaystyle i\in \{1,\dotsc ,n\}} . With similar argument, for the MLE of β {\displaystyle \beta } , we should choose a β {\displaystyle \beta } that is as small as possible subject to this constraint, which means β > x i {\displaystyle \beta >x_{i}} for each i ∈ { 1 , … , n } {\displaystyle i\in \{1,\dotsc ,n\}} . However, in this case, we cannot set β {\displaystyle \beta } to be the maximum of x 1 , … , x n {\displaystyle x_{1},\dotsc ,x_{n}} , or else the constraint will not be satisfied and the likelihood function becomes zero due to the indicator function. Instead, we should set β {\displaystyle \beta } to be slightly greater than the maximum of x 1 , … , x n {\displaystyle x_{1},\dotsc ,x_{n}} , so that the constraint can still be satisifed, and β {\displaystyle \beta } is quite small. However, for each such β > max { x 1 , … , x n } {\displaystyle \beta >\max\{x_{1},\dotsc ,x_{n}\}} , we can always chooses a smaller β {\displaystyle \beta } that still satisfies the constraint. For example, for each β {\displaystyle \beta } , the smaller beta, β ′ {\displaystyle \beta '} can be selected as max { x 1 , … , x n } + β − max { x 1 , … , x n } 2 > max { x 1 , … , x n } {\displaystyle \max\{x_{1},\dotsc ,x_{n}\}+{\frac {\beta -\max\{x_{1},\dotsc ,x_{n}\}}{2}}>\max\{x_{1},\dotsc ,x_{n}\}} [ 4] . Hence, we cannot find a minimum value of β {\displaystyle \beta } subject to this constraint. Thus, there is no maximum point for ln L ( p ) {\displaystyle \ln {\mathcal {L}}(p)} , and hence the MLE does not exist.
◻ {\displaystyle \Box }
在下面的例子中,我们将找到参数向量的最大似然估计。
例。 令 X 1 , … , X n {\displaystyle X_{1},\dotsc ,X_{n}} 为来自均值为 θ 1 {\displaystyle \theta _{1}} ,方差为 θ 2 {\displaystyle \theta _{2}} 的正态分布的随机样本, N ( θ 1 , θ 2 ) {\displaystyle {\mathcal {N}}(\theta _{1},\theta _{2})} 。求 ( θ 1 , θ 2 ) {\displaystyle (\theta _{1},\theta _{2})} 的最大似然估计。
解 :令 θ = ( θ 1 , θ 2 ) {\displaystyle \theta =(\theta _{1},\theta _{2})} 。似然函数为 L ( θ ; x ) = ∏ i = 1 n 1 2 π θ 2 exp ( − ( x i − θ 1 ) 2 2 θ 2 ) = ( 2 π θ 2 ) − n / 2 exp ( − ∑ i = 1 n ( x i − θ 1 ) 2 2 θ 2 ) {\displaystyle {\mathcal {L}}(\theta ;\mathbf {x} )=\prod _{i=1}^{n}{\frac {1}{\sqrt {2\pi \theta _{2}}}}\exp \left(-{\frac {(x_{i}-\theta _{1})^{2}}{2\theta _{2}}}\right)=(2\pi \theta _{2})^{-n/2}\exp \left(-\sum _{i=1}^{n}{\frac {(x_{i}-\theta _{1})^{2}}{2\theta _{2}}}\right)} ,因此对数似然函数为 ln L ( θ ; x ) = − n 2 ln ( 2 π θ 2 ) − ∑ i = 1 n ( x i − θ 1 ) 2 2 θ 2 {\displaystyle \ln {\mathcal {L}}(\theta ;\mathbf {x} )=-{\frac {n}{2}}\ln(2\pi \theta _{2})-\sum _{i=1}^{n}{\frac {(x_{i}-\theta _{1})^{2}}{2\theta _{2}}}} 。由于该函数是多元函数,我们可以使用多元微积分中的二阶偏导数检验来寻找最大值点。但是,在本例中,我们实际上不需要使用这种检验。相反,我们可以逐个固定变量,使函数成为一元函数,这样我们就可以使用一元函数的导数检验来寻找最大值点(在另一个变量固定的情况下)。
由于 ∂ ln L ( θ ; x ) ∂ θ 1 = 1 θ 2 ∑ i = 1 n ( x i − θ 1 ) {\displaystyle {\frac {\partial \ln {\mathcal {L}}(\theta ;\mathbf {x} )}{\partial \theta _{1}}}={\frac {1}{\theta _{2}}}\sum _{i=1}^{n}(x_{i}-\theta _{1})} 和 ∂ ln L ( θ ; x ) ∂ θ 2 = − 2 n π 4 π θ 2 + 1 2 θ 2 2 ∑ i = 1 n ( x i − θ 1 ) 2 = − n 2 θ 2 + 1 2 θ 2 2 ∑ i = 1 n ( x i − θ 1 ) 2 {\displaystyle {\frac {\partial \ln {\mathcal {L}}(\theta ;\mathbf {x} )}{\partial \theta _{2}}}=-{\frac {2n\pi }{4\pi \theta _{2}}}+{\frac {1}{2\theta _{2}^{2}}}\sum _{i=1}^{n}(x_{i}-\theta _{1})^{2}=-{\frac {n}{2\theta _{2}}}+{\frac {1}{2\theta _{2}^{2}}}\sum _{i=1}^{n}(x_{i}-\theta _{1})^{2}} 。
此外, ∂ ln L ( θ ; x ) ∂ θ 1 = 0 ⟹ ∑ i = 1 n ( x i − θ 1 ) = 0 ⟹ − n θ 1 + ∑ i = 1 n x i = 0 ⟹ θ 1 = ∑ i = 1 n x i n = x ¯ {\displaystyle {\frac {\partial \ln {\mathcal {L}}(\theta ;\mathbf {x} )}{\partial \theta _{1}}}=0\implies \sum _{i=1}^{n}(x_{i}-\theta _{1})=0\implies -n\theta _{1}+\sum _{i=1}^{n}x_{i}=0\implies \theta _{1}={\frac {\sum _{i=1}^{n}x_{i}}{n}}={\overline {x}}} ,它与 θ 2 {\displaystyle \theta _{2}} 无关(这对我们使用这种方法很重要)并且 ∂ ln L ( θ ; x ) ∂ θ 2 = 0 ⟹ n 2 θ 2 = 1 2 θ 2 2 ( ∑ i = 1 n ( x i − θ 1 ) 2 ) ⟹ n = 1 θ 2 ( ∑ i = 1 n ( x i − θ 1 ) 2 ) ⟹ θ 2 = ∑ i = 1 n ( x i − θ 1 ) 2 n {\displaystyle {\frac {\partial \ln {\mathcal {L}}(\theta ;\mathbf {x} )}{\partial \theta _{2}}}=0\implies {\frac {n}{2\theta _{2}}}={\frac {1}{2\theta _{2}^{2}}}\left(\sum _{i=1}^{n}(x_{i}-\theta _{1})^{2}\right)\implies n={\frac {1}{\theta _{2}}}\left(\sum _{i=1}^{n}(x_{i}-\theta _{1})^{2}\right)\implies \theta _{2}={\frac {\sum _{i=1}^{n}(x_{i}-\theta _{1})^{2}}{n}}} 。
由于 ∂ 2 ln L ( θ ; x ) ∂ θ 1 2 = ∂ ∂ θ 1 ( 1 θ 2 ∑ i = 1 n ( x i − θ 1 ) ) = 1 θ 2 ∑ i = 1 n ( − 1 ) = − n θ 2 < 0 {\displaystyle {\frac {\partial ^{2}\ln {\mathcal {L}}(\theta ;\mathbf {x} )}{\partial \theta _{1}^{2}}}={\frac {\partial }{\partial \theta _{1}}}\left({\frac {1}{\theta _{2}}}\sum _{i=1}^{n}(x_{i}-\theta _{1})\right)={\frac {1}{\theta _{2}}}\sum _{i=1}^{n}(-1)={\frac {-n}{\theta _{2}}}<0} ,根据一元函数的二阶导数检验, ln L ( θ ; x ) {\displaystyle \ln {\mathcal {L}}(\theta ;\mathbf {x} )} 在 θ 1 = x ¯ {\displaystyle \theta _{1}={\overline {x}}} 处取得最大值,在任意固定的 θ 2 {\displaystyle \theta _{2}} 的情况下。
另一方面,由于 ∂ 2 ln L ( θ ; x ) ∂ θ 2 2 = n 2 θ 2 2 − 1 θ 2 3 ∑ i = 1 n ( x i − θ 1 ) 2 {\displaystyle {\frac {\partial ^{2}\ln {\mathcal {L}}(\theta ;\mathbf {x} )}{\partial \theta _{2}^{2}}}={\frac {n}{2\theta _{2}^{2}}}-{\frac {1}{\theta _{2}^{3}}}\sum _{i=1}^{n}(x_{i}-\theta _{1})^{2}} ,因此 ∂ 2 ln L ( θ ; x ) ∂ θ 2 2 | θ 2 = ∑ i = 1 n ( x i − θ 1 ) 2 n = 1 2 n ( ∑ i = 1 n ( x i − θ 1 ) 2 ) 2 − n 3 ( ∑ i = 1 n ( x i − θ 1 ) 2 ) 2 = 1 − 2 n 4 2 n ( ∑ i = 1 n ( x i − θ 1 ) 2 ) 2 < 0 {\displaystyle \left.{\frac {\partial ^{2}\ln {\mathcal {L}}(\theta ;\mathbf {x} )}{\partial \theta _{2}^{2}}}\right\vert _{\theta _{2}={\frac {\sum _{i=1}^{n}(x_{i}-\theta _{1})^{2}}{n}}}={\frac {1}{2n\left(\sum _{i=1}^{n}(x_{i}-\theta _{1})^{2}\right)^{2}}}-{\frac {n^{3}}{\left(\sum _{i=1}^{n}(x_{i}-\theta _{1})^{2}\right)^{2}}}={\frac {1-2n^{4}}{2n\left(\sum _{i=1}^{n}(x_{i}-\theta _{1})^{2}\right)^{2}}}<0} (因为 2 n 4 > 1 {\displaystyle 2n^{4}>1} )。
因此,根据二阶导数检验, ln L ( θ ; x ) {\displaystyle \ln {\mathcal {L}}(\theta ;\mathbf {x} )} 在 θ 2 = ∑ i = 1 n ( x i − θ 1 ) 2 n {\displaystyle \theta _{2}={\frac {\sum _{i=1}^{n}(x_{i}-\theta _{1})^{2}}{n}}} 处取得最大值,在任何给定的固定 θ 1 {\displaystyle \theta _{1}} 下。
因此,现在我们固定 θ 1 = x ¯ {\displaystyle \theta _{1}={\overline {x}}} ,因此我们有 ln L ( θ ; x ) {\displaystyle \ln {\mathcal {L}}(\theta ;\mathbf {x} )} 在 θ 2 = ∑ i = 1 n ( x i − x ¯ ) 2 n = s 2 {\displaystyle \theta _{2}={\frac {\sum _{i=1}^{n}(x_{i}-{\overline {x}})^{2}}{n}}=s^{2}} 处取得最大值,其中 s 2 {\displaystyle s^{2}} 是样本方差 S 2 {\displaystyle S^{2}} 的取值。现在,固定 θ 2 {\displaystyle \theta _{2}} 为 s 2 {\displaystyle s^{2}} ,并且我们知道 ln L ( θ ; x ) {\displaystyle \ln {\mathcal {L}}(\theta ;\mathbf {x} )} 在 θ 1 = x ¯ {\displaystyle \theta _{1}={\overline {x}}} 处取得最大值,对于每个固定的 θ 2 {\displaystyle \theta _{2}} 都是如此,包括这个固定的 θ 2 = s 2 {\displaystyle \theta _{2}=s^{2}} 。结果, ln L ( θ ; x ) {\displaystyle \ln {\mathcal {L}}(\theta ;\mathbf {x} )} 在 ( θ 1 , θ 2 ) = ( x ¯ , s 2 ) {\displaystyle (\theta _{1},\theta _{2})=({\overline {x}},s^{2})} 处取得最大值。因此, ( θ 1 , θ 2 ) {\displaystyle (\theta _{1},\theta _{2})} 的最大似然估计是 ( X ¯ , S 2 ) {\displaystyle ({\overline {X}},S^{2})} 。
练习。
(a) 计算 ln L ( θ ; x ) {\displaystyle \ln {\mathcal {L}}(\theta ;\mathbf {x} )} 在 ( θ 1 , θ 2 ) = ( x ¯ , s 2 ) {\displaystyle (\theta _{1},\theta _{2})=({\overline {x}},s^{2})} 处的 Hessian 矩阵的行列式,可以表示为 ∂ 2 ln L ∂ θ 1 2 ( x ¯ , s 2 ) ∂ 2 ln L ∂ θ 2 2 ( x ¯ , s 2 ) − ( ∂ 2 ln L ∂ θ 2 ∂ θ 1 ( x ¯ , s 2 ) ) 2 {\displaystyle {\frac {\partial ^{2}\ln {\mathcal {L}}}{\partial \theta _{1}^{2}}}({\overline {x}},s^{2}){\frac {\partial ^{2}\ln {\mathcal {L}}}{\partial \theta _{2}^{2}}}({\overline {x}},s^{2})-\left({\frac {\partial ^{2}\ln {\mathcal {L}}}{\partial \theta _{2}\partial \theta _{1}}}({\overline {x}},s^{2})\right)^{2}} 。
(b) 因此,使用二阶偏导数检验验证 ( θ 1 , θ 2 ) = ( x ¯ , s 2 ) {\displaystyle (\theta _{1},\theta _{2})=({\overline {x}},s^{2})} 是 ln L ( θ ; x ) {\displaystyle \ln {\mathcal {L}}(\theta ;\mathbf {x} )} 的最大值点。
解答
(a) 首先,
∂ 2 ln L ∂ θ 1 2 ( x ¯ , s 2 ) = above − n θ 2 | θ 2 = s 2 = − n s 2 {\displaystyle {\frac {\partial ^{2}\ln {\mathcal {L}}}{\partial \theta _{1}^{2}}}({\overline {x}},s^{2}){\overset {\text{above}}{=}}\left.{\frac {-n}{\theta _{2}}}\right\vert _{\theta _{2}=s^{2}}={\frac {-n}{s^{2}}}}
∂ 2 ln L ∂ θ 2 2 ( x ¯ , s 2 ) = above n 2 θ 2 2 − 1 θ 2 3 ∑ i = 1 n ( x i − θ 1 ) 2 | ( θ 1 , θ 2 ) = ( x ¯ , s 2 ) = n 2 ( s 2 ) 2 − 1 ( s 2 ) 3 ⋅ n s 2 = n 2 ( s 2 ) 2 − n ( s 2 ) 2 = − n 2 ( s 2 ) 2 {\displaystyle {\frac {\partial ^{2}\ln {\mathcal {L}}}{\partial \theta _{2}^{2}}}({\overline {x}},s^{2}){\overset {\text{above}}{=}}\left.{\frac {n}{2\theta _{2}^{2}}}-{\frac {1}{\theta _{2}^{3}}}\sum _{i=1}^{n}(x_{i}-\theta _{1})^{2}\right\vert _{(\theta _{1},\theta _{2})=({\overline {x}},s^{2})}={\frac {n}{2(s^{2})^{2}}}-{\frac {1}{(s^{2})^{3}}}\cdot ns^{2}={\frac {n}{2(s^{2})^{2}}}-{\frac {n}{(s^{2})^{2}}}={\frac {-n}{2(s^{2})^{2}}}}
∂ 2 ln L ∂ θ 2 ∂ θ 1 ( x ¯ , s 2 ) = above ∂ ∂ θ 2 ( 1 θ 2 ∑ i = 1 n ( x i − θ 1 ) ) | ( θ 1 , θ 2 ) = ( x ¯ , s 2 ) = − ∑ i = 1 n ( x i − θ 1 ) θ 2 2 | ( θ 1 , θ 2 ) = ( x ¯ , s 2 ) = − ∑ i = 1 n ( x i − x ¯ ) ( s 2 ) 2 = − ∑ i = 1 n ( x i ) − n x ¯ ( s 2 ) 2 = − n x ¯ − n x ¯ ( s 2 ) 2 = 0 {\displaystyle {\frac {\partial ^{2}\ln {\mathcal {L}}}{\partial \theta _{2}\partial \theta _{1}}}({\overline {x}},s^{2}){\overset {\text{above}}{=}}\left.{\frac {\partial }{\partial \theta _{2}}}\left({\frac {1}{\theta _{2}}}\sum _{i=1}^{n}(x_{i}-\theta _{1})\right)\right\vert _{(\theta _{1},\theta _{2})=({\overline {x}},s^{2})}=\left.-{\frac {\sum _{i=1}^{n}(x_{i}-\theta _{1})}{\theta _{2}^{2}}}\right\vert _{(\theta _{1},\theta _{2})=({\overline {x}},s^{2})}=-{\frac {\sum _{i=1}^{n}(x_{i}-{\overline {x}})}{(s^{2})^{2}}}=-{\frac {\sum _{i=1}^{n}(x_{i})-n{\overline {x}}}{(s^{2})^{2}}}=-{\frac {n{\overline {x}}-n{\overline {x}}}{(s^{2})^{2}}}=0}
因此,Hessian矩阵的行列式为 − n s 2 ⋅ − n 2 ( s 2 ) 2 = n 2 2 ( s 2 ) 3 {\displaystyle {\frac {-n}{s^{2}}}\cdot {\frac {-n}{2(s^{2})^{2}}}={\frac {n^{2}}{2(s^{2})^{3}}}} 。
(b) 从(a)可知,Hessian矩阵的行列式为正。此外, ∂ 2 ln L ∂ θ 1 2 ( x ¯ , s 2 ) = − n s 2 < 0 {\displaystyle {\frac {\partial ^{2}\ln {\mathcal {L}}}{\partial \theta _{1}^{2}}}({\overline {x}},s^{2})=-{\frac {n}{s^{2}}}<0} 。因此,根据二阶偏导数检验, ln L ( θ ; x ) {\displaystyle \ln {\mathcal {L}}(\theta ;\mathbf {x} )} 在 ( θ 1 , θ 2 ) = ( x ¯ , s 2 ) {\displaystyle (\theta _{1},\theta _{2})=({\overline {x}},s^{2})} 处取得最大值。
对于最大似然估计,我们需要利用似然函数,该函数来自分布中随机样本的联合概率质量函数或概率密度函数。然而,在实践中我们可能并不知道分布的概率质量函数或概率密度函数的确切形式。相反,我们可能只知道关于分布的一些信息,例如均值、方差和一些矩( r {\displaystyle r} 阶随机变量 X {\displaystyle X} 的矩为 E [ X r ] {\displaystyle \mathbb {E} [X^{r}]} ,为了简单起见,我们将其表示为 μ r {\displaystyle \mu _{r}} )。这些矩通常包含关于未知参数的信息。例如,对于正态分布 N ( μ , σ 2 ) {\displaystyle {\mathcal {N}}(\mu ,\sigma ^{2})} ,我们知道 μ = μ 1 {\displaystyle \mu =\mu _{1}} 和 σ 2 = μ 2 − ( μ 1 ) 2 {\displaystyle \sigma ^{2}=\mu _{2}-(\mu _{1})^{2}} 。因此,当我们想要估计参数时,可以通过估计矩来实现。
现在,我们想知道如何估计矩。我们令 m r = ∑ i = 1 n X i r n {\displaystyle m_{r}={\frac {\sum _{i=1}^{n}X_{i}^{r}}{n}}} 为 r {\displaystyle r} 阶样本矩 [ 5] ,其中 X i {\displaystyle X_{i}} 是独立同分布的。根据大数定律 (假设条件满足),我们有
X ¯ = m 1 → p E [ X ] = μ 1 {\displaystyle {\overline {X}}=m_{1}\;{\overset {p}{\to }}\;\mathbb {E} [X]=\mu _{1}}
m 2 → p E [ X 2 ] = μ 2 {\displaystyle m_{2}\;{\overset {p}{\to }}\;\mathbb {E} [X^{2}]=\mu _{2}} (这可以通过在大数定律中将“ X {\displaystyle X} ”替换为“ X 2 {\displaystyle X^{2}} ”来观察,那么条件仍然满足,因此我们仍然可以应用大数定律)
通常情况下,我们有 m r → p μ r {\displaystyle m_{r}\;{\overset {p}{\to }}\;\mu _{r}} ,因为在弱大数定律中用 X r {\displaystyle X^{r}} 替换 X {\displaystyle X} 后,条件仍然满足。
基于这些结果,我们可以使用第 r {\displaystyle r} 个样本矩 m r {\displaystyle m_{r}} 来估计第 r {\displaystyle r} 阶矩 μ r {\displaystyle \mu _{r}} ,当 n {\displaystyle n} 很大时,这种估计会“更好”。例如,在上面正态分布的例子中,我们可以用 m 1 {\displaystyle m_{1}} 估计 μ {\displaystyle \mu } ,用 m 2 − ( m 1 ) 2 {\displaystyle m_{2}-(m_{1})^{2}} 估计 σ 2 {\displaystyle \sigma ^{2}} ,这些估计量实际上被称为矩估计法 。
更准确地说,我们给出矩估计法 的定义如下:
定义。 (矩估计法)设 X 1 , … , X n {\displaystyle X_{1},\dotsc ,X_{n}} 是来自具有概率密度函数或概率质量函数 f ( x ; θ 1 , … , θ k ) {\displaystyle f(x;\theta _{1},\dotsc ,\theta _{k})} 的分布的一个随机样本。将 k {\displaystyle k} 个矩,例如 μ 1 , … , μ k {\displaystyle \mu _{1},\dotsc ,\mu _{k}} ,分别写成 θ 1 , … , θ k {\displaystyle \theta _{1},\dotsc ,\theta _{k}} 的函数: g 1 ( θ 1 , … , θ k ) , … , g k ( θ 1 , … , θ k ) {\displaystyle g_{1}(\theta _{1},\dotsc ,\theta _{k}),\dotsc ,g_{k}(\theta _{1},\dotsc ,\theta _{k})} 。那么, θ 1 , … , θ k {\displaystyle \theta _{1},\dotsc ,\theta _{k}} 的矩估计量 (MME),分别为 θ ^ 1 , … , θ ^ k {\displaystyle {\hat {\theta }}_{1},\dotsc ,{\hat {\theta }}_{k}} ,由以下方程组(以 θ ^ 1 , … , θ ^ k {\displaystyle {\hat {\theta }}_{1},\dotsc ,{\hat {\theta }}_{k}} 关于 m 1 , … , m k {\displaystyle m_{1},\dotsc ,m_{k}} 的形式给出,对应于 k {\displaystyle k} 个矩 μ 1 , … , μ k {\displaystyle \mu _{1},\dotsc ,\mu _{k}} 的解给出)得到以下方程组: { m 1 = g 1 ( θ ^ 1 , … , θ ^ k ) ⋮ m k = g k ( θ ^ 1 , … , θ ^ k ) {\displaystyle {\begin{cases}m_{1}=g_{1}({\hat {\theta }}_{1},\dotsc ,{\hat {\theta }}_{k})\\\vdots \\m_{k}=g_{k}({\hat {\theta }}_{1},\dotsc ,{\hat {\theta }}_{k})\\\end{cases}}}
在本节中,我们将介绍一些用于评估点估计量“好坏”的标准,即无偏性 、有效性 和一致性 。
对于 θ ^ {\displaystyle {\hat {\theta }}} 成为参数 θ {\displaystyle \theta } 的“良好”估计量, θ ^ {\displaystyle {\hat {\theta }}} 的一个理想特性是其期望值等于参数 θ {\displaystyle \theta } 的值,或者至少接近该值。正因为如此,我们引入了偏差 这一概念,来衡量 θ ^ {\displaystyle {\hat {\theta }}} 的均值与 θ {\displaystyle \theta } 的接近程度。
定义。 (偏差)估计量 θ ^ {\displaystyle {\hat {\theta }}} 的偏差 为 Bias ( θ ^ ) = E [ θ ^ ] − θ . {\displaystyle \operatorname {Bias} ({\hat {\theta }})=\mathbb {E} [{\hat {\theta }}]-\theta .}
我们还将定义一些与偏差相关的术语。
备注。
无偏估计量必须是渐近无偏估计量,但反之不成立,即渐近无偏估计量可能不是无偏估计量。因此,有偏估计量也可能是渐近无偏估计量。
当我们根据无偏性讨论估计量的优劣时,无偏估计量优于渐近无偏估计量,渐近无偏估计量优于有偏估计量。
然而,除了无偏性之外,还有其他评估估计量优劣的标准,因此,当我们也考虑其他标准时,有偏估计量在总体上可能比无偏估计量“更好”。
我们已经讨论了如何评估估计量的无偏性。现在,如果我们有两个无偏估计量, θ ^ {\displaystyle {\hat {\theta }}} 和 θ ~ {\displaystyle {\tilde {\theta }}} ,我们应该如何比较它们的好坏?如果我们只从无偏性的角度比较它们,那么它们的好坏是相同的。因此,在这种情况下,我们需要另一个标准。一种可能的方法是比较它们的方差 ,方差较小的那个更好,因为平均而言,该估计量与其均值的偏差较小,而根据无偏估计量的定义,其均值就是未知参数的值,因此方差较小的那个在某种偏差意义上更准确。实际上,无偏估计量仍然可能具有较大的方差,从而与其均值产生很大的偏差。这样的估计量是无偏的,因为正偏差和负偏差在某种程度上相互抵消。这就是效率 的思想。
实际上,对于无偏估计量的方差,由于无偏估计量的均值是未知参数 θ {\displaystyle \theta } ,它衡量了与 θ {\displaystyle \theta } 偏差的平方值的均值,并且我们对此偏差有一个特定的术语,即均方误差 (MSE)。
备注。
根据此定义, MSE ( θ ^ ) {\displaystyle \operatorname {MSE} ({\hat {\theta }})} 是 θ ^ − θ {\displaystyle {\hat {\theta }}-\theta } 的误差 的平方 的均值 ,因此得名均方误差 。
注意,在 MSE 的定义中,我们没有规定 θ ^ {\displaystyle {\hat {\theta }}} 必须是无偏估计量。因此,定义中的 θ ^ {\displaystyle {\hat {\theta }}} 可能是存在偏差的。我们已经提到,当 θ ^ {\displaystyle {\hat {\theta }}} 是无偏的时,它的方差实际上就是它的 MSE。在下文中,我们将给出 MSE ( θ ^ ) {\displaystyle \operatorname {MSE} ({\hat {\theta }})} 和 Var ( θ ^ ) {\displaystyle \operatorname {Var} ({\hat {\theta }})} 之间更一般的关系,而不仅仅是针对无偏估计量。
命题. (均方误差与方差之间的关系)如果 Var ( θ ^ ) {\displaystyle \operatorname {Var} ({\hat {\theta }})} 存在,则 MSE ( θ ^ ) = Var ( θ ^ ) + [ Bias ( θ ^ ) ] 2 {\displaystyle \operatorname {MSE} ({\hat {\theta }})=\operatorname {Var} ({\hat {\theta }})+[\operatorname {Bias} ({\hat {\theta }})]^{2}} 。
现在,我们知道无偏估计量的方差越小,其效率(和“更好”)就越高。因此,我们自然想知道什么是最 有效的(即“最佳”)无偏估计量,即方差最小的无偏估计量。对于这种无偏估计量,我们有一个特定的名称,即一致最小方差无偏估计量 (UMVUE) [ 6] 。更准确地说,我们对 UMVUE 有以下定义
定义。 (一致最小方差无偏估计量)一致最小方差无偏估计量 (UMVUE) 是在所有无偏估计量中具有最小方差 的无偏估计量。
事实上,UMVUE 是唯一 的,即在所有无偏估计量中,只有一个无偏估计量具有最小方差,我们将在下面证明这一点。
证明. 假设 W {\displaystyle W} 是 τ ( θ ) {\displaystyle \tau (\theta )} 的UMVUE,并且 W ′ {\displaystyle W'} 是 τ ( θ ) {\displaystyle \tau (\theta )} 的另一个UMVUE。定义估计量 W ∗ = 1 2 ( W + W ′ ) {\displaystyle W^{*}={\frac {1}{2}}(W+W')} 。由于 E [ W ∗ ] = 1 2 ( E [ W ] + E [ W ′ ] ) = 1 2 ( τ ( θ + θ ) = τ ( θ ) {\displaystyle \mathbb {E} [W^{*}]={\frac {1}{2}}(\mathbb {E} [W]+\mathbb {E} [W'])={\frac {1}{2}}(\tau (\theta +\theta )=\tau (\theta )} , W ∗ {\displaystyle W^{*}} 是 τ ( θ ) {\displaystyle \tau (\theta )} 的无偏估计量。
Now, we consider the variance of W ∗ {\displaystyle W^{*}} . Var ( W ∗ ) = 1 4 Var ( W + W ′ ) = 1 4 [ Var ( W ) + Var ( W ′ ) + 2 Cov ( W , W ′ ) ] ≤ 1 4 Var ( W ) + 1 4 Var ( W ′ ) + 1 2 Var ( W ) Var ( W ′ ) ( covariance inequality ) = 1 4 Var ( W ) + 1 4 Var ( W ) + 1 2 ( Var ( W ) ) 2 ( Var ( W ) = Var ( W ′ ) since W and W ′ are both UMVUE ) = 1 2 Var ( W ) + 1 2 Var ( W ) ( Var ( W ) > 0 ) = Var ( W ) . {\displaystyle {\begin{aligned}\operatorname {Var} (W^{*})&={\frac {1}{4}}\operatorname {Var} (W+W')\\&={\frac {1}{4}}\left[\operatorname {Var} (W)+\operatorname {Var} (W')+2\operatorname {Cov} (W,W')\right]\\&\leq {\frac {1}{4}}\operatorname {Var} (W)+{\frac {1}{4}}\operatorname {Var} (W')+{\frac {1}{2}}{\sqrt {\operatorname {Var} (W)\operatorname {Var} (W')}}&({\text{covariance inequality}})\\&={\frac {1}{4}}\operatorname {Var} (W)+{\frac {1}{4}}\operatorname {Var} (W)+{\frac {1}{2}}{\sqrt {(\operatorname {Var} (W))^{2}}}&(\operatorname {Var} (W)=\operatorname {Var} (W'){\text{ since }}W{\text{ and }}W'{\text{ are both UMVUE}})\\&={\frac {1}{2}}\operatorname {Var} (W)+{\frac {1}{2}}\operatorname {Var} (W)&(\operatorname {Var} (W)>0)\\&=\operatorname {Var} (W).\end{aligned}}} Thus, we now have either Var ( W ∗ ) < Var ( W ) {\displaystyle \operatorname {Var} (W^{*})<\operatorname {Var} (W)} or Var ( W ∗ ) = Var ( W ) {\displaystyle \operatorname {Var} (W^{*})=\operatorname {Var} (W)} . If the former is true, then W {\displaystyle W} is not an UMVUE of τ ( θ ) {\displaystyle \tau (\theta )} by definition, since we can find another unbiased estimator, namely W ∗ {\displaystyle W^{*}} , with smaller variance than it. Hence, we must have the latter, i.e., Var ( W ∗ ) = Var ( W ) . {\displaystyle \operatorname {Var} (W^{*})=\operatorname {Var} (W).} This implies when we apply the covariance inequality, the equality holds, i.e., Cov ( W , W ′ ) = Var ( W ) Var ( W ′ ) ⟺ ρ ( W ′ , W ) = 1 , {\displaystyle \operatorname {Cov} (W,W')={\sqrt {\operatorname {Var} (W)\operatorname {Var} (W')}}\iff \rho (W',W)=1,} which means W ′ {\displaystyle W'} is increasing linearly with W {\displaystyle W} , i.e., we can write W ′ = a W + b {\displaystyle W'=aW+b} for some constants a > 0 {\displaystyle a>0} and b {\displaystyle b} .
现在,我们考虑协方差 Cov ( W , W ′ ) {\displaystyle \operatorname {Cov} (W,W')} 。 Cov ( W , W ′ ) = above Cov ( W , a W + b ) = properties a Cov ( W , W ) = property a Var ( W ) . {\displaystyle \operatorname {Cov} (W,W'){\overset {\text{ above }}{=}}\operatorname {Cov} (W,aW+b){\overset {\text{ properties }}{=}}a\operatorname {Cov} (W,W){\overset {\text{ property }}{=}}a\operatorname {Var} (W).} 另一方面,由于协方差不等式中存在等号,并且 Var ( W ) = Var ( W ′ ) {\displaystyle \operatorname {Var} (W)=\operatorname {Var} (W')} (因为它们都是UMVUE), Cov ( W , W ′ ) = Var ( W ) Var ( W ′ ) = ( Var ( W ) ) 2 = Var ( W ) . {\displaystyle \operatorname {Cov} (W,W')={\sqrt {\operatorname {Var} (W)\operatorname {Var} (W')}}={\sqrt {(\operatorname {Var} (W))^{2}}}=\operatorname {Var} (W).} 因此,我们有 a = 1 {\displaystyle a=1} 。
接下来需要证明 b = 0 {\displaystyle b=0} ,以证明 W = W ′ {\displaystyle W=W'} ,从而得出结论 W {\displaystyle W} 是唯一的 。
从上面,我们现在有 W ′ = W + b ⟹ E [ W ′ ] = E [ W ] + b ⟹ τ ( θ ) = τ ( θ ) + b ⟹ b = 0 {\displaystyle W'=W+b\implies \mathbb {E} [W']=\mathbb {E} [W]+b\implies \tau (\theta )=\tau (\theta )+b\implies b=0} ,如预期的那样。
◻ {\displaystyle \Box }
备注。
因此,当我们能够找到一个UMVUE时,它就是唯一的,并且任何其他可能的无偏估计量的方差都严格大于UMVUE的方差。
在不使用一些结果的情况下,确定UMVUE是相当困难的,因为存在许多(甚至可能是无限多个)可能的无偏估计量,因此很难确保一个特定的无偏估计量相对于所有其他可能的无偏估计量更有效。
因此,我们将介绍一些有助于我们找到UMVUE的方法。对于第一种方法,我们找到所有可能的无偏估计量的方差的下界 [ 7] 。在获得这样的下界后,如果我们能找到一个方差正好等于下界的无偏估计量,那么该下界就是方差的最小值,因此根据定义,这样的无偏估计量就是UMVUE。
备注。
存在许多可能的下界,但是当界限越大时,它就越接近方差的实际最小值,因此“更好”。
即使无偏估计量的方差没有达到下界,它仍然可以是UMVUE。
找到这样的下界的一种常见方法是使用克拉美-罗下界 (CRLB),并且我们通过克拉美-罗不等式 得到CRLB。在陈述不等式之前,让我们定义一些相关的术语。
备注。
∂ ln L ( θ ; X ) ∂ θ {\displaystyle {\frac {\partial \ln {\mathcal {L}}({\boldsymbol {\theta }};\mathbf {X} )}{\partial \theta }}} 称为得分函数 ,记为 S ( θ ; X ) {\displaystyle S(\theta ;\mathbf {X} )} 。
“ θ {\displaystyle {\boldsymbol {\theta }}} ”可能是也可能不是一个参数向量。如果它只是一个单个参数(通常情况下),那么它与“ θ {\displaystyle \theta } ”相同。我们使用“ θ {\displaystyle {\boldsymbol {\theta }}} ”而不是“ θ {\displaystyle \theta } ”是为了强调 I n ( θ ) {\displaystyle {\mathcal {I}}_{n}(\theta )} 和 S ( θ ; X ) {\displaystyle S(\theta ;\mathbf {X} )} 中的“ θ {\displaystyle \theta } ”指的是 ∂ ∂ θ {\displaystyle {\frac {\partial }{\partial \theta }}} 中的“ θ {\displaystyle \theta } ”。
可以定义“关于参数向量的费歇尔信息”,但在这种情况下,费歇尔信息采用矩阵 的形式而不是单个数字,它被称为费歇尔信息矩阵 。然而,由于它比较复杂,我们这里不讨论它。
由于得分函数的期望值为
E [ S ( θ ; X ) ] E [ ∂ ln L ( θ ; X ) ∂ θ ] = ∫ − ∞ ∞ ⋯ ∫ − ∞ ∞ ∂ ln L ( θ ; x ) ∂ θ ⋅ L ( θ ; x ) d x n ⋯ d x 1 = ∫ − ∞ ∞ ⋯ ∫ − ∞ ∞ ∂ L ( θ ; x ) ∂ θ L ( θ ; x ) ⋅ L ( θ ; x ) d x n ⋯ d x 1 = ∫ − ∞ ∞ ⋯ ∫ − ∞ ∞ ∂ L ( θ ; x ) ∂ θ d x n ⋯ d x 1 , {\displaystyle \mathbb {E} [S(\theta ;\mathbf {X} )]\mathbb {E} \left[{\frac {\partial \ln {\mathcal {L}}({\boldsymbol {\theta }};\mathbf {X} )}{\partial \theta }}\right]=\int _{-\infty }^{\infty }\dotsi \int _{-\infty }^{\infty }{\frac {\partial \ln {\mathcal {L}}({\boldsymbol {\theta }};\mathbf {x} )}{\partial \theta }}\cdot {\mathcal {L}}({\boldsymbol {\theta }};\mathbf {x} )\,dx_{n}\cdots \,dx_{1}=\int _{-\infty }^{\infty }\dotsi \int _{-\infty }^{\infty }{\frac {\frac {\partial {\mathcal {L}}({\boldsymbol {\theta }};\mathbf {x} )}{\partial \theta }}{{\mathcal {L}}({\boldsymbol {\theta }};\mathbf {x} )}}\cdot {\mathcal {L}}({\boldsymbol {\theta }};\mathbf {x} )\,dx_{n}\cdots \,dx_{1}=\int _{-\infty }^{\infty }\dotsi \int _{-\infty }^{\infty }{\frac {\partial {\mathcal {L}}({\boldsymbol {\theta }};\mathbf {x} )}{\partial \theta }}\,dx_{n}\cdots \,dx_{1},}
并且,在允许导数和积分交换的一些正则条件下 ,这等于 ∂ ∂ θ ∫ − ∞ ∞ ⋯ ∫ − ∞ ∞ L ( θ ; x ) d x n ⋯ d x 1 = ∂ ∂ θ ( 1 ) = 0 {\displaystyle {\frac {\partial }{\partial \theta }}\int _{-\infty }^{\infty }\dotsi \int _{-\infty }^{\infty }{\mathcal {L}}({\boldsymbol {\theta }};\mathbf {x} )\,dx_{n}\cdots \,dx_{1}={\frac {\partial }{\partial \theta }}(1)=0} ,关于 θ {\displaystyle \theta } 的费雪信息也是得分函数的方差,即 Var ( S ( θ ; X ) ) = Var ( ∂ ln L ( θ ; X ) ∂ θ ) {\displaystyle \operatorname {Var} (S(\theta ;\mathbf {X} ))=\operatorname {Var} \left({\frac {\partial \ln {\mathcal {L}}({\boldsymbol {\theta }};\mathbf {X} )}{\partial \theta }}\right)} 。
对于允许导数和积分交换的正则条件,它们包括
所涉及的偏导数应该存在,即所涉及函数的(自然对数)是可微的
所涉及的积分应该是可微的
支持域不依赖于所涉及的参数
我们有一些结果可以帮助我们计算费雪信息。
证明。 I n ( θ ) = E [ ( ∂ ln L ( θ ; x ) ∂ θ ) 2 ] = Var ( ∂ ln L ( θ ; x ) ∂ θ ) 根据以上说明 = Var ( ∂ ∂ θ ( ln ∏ i = 1 n f ( X i ; θ ) ) ) ( L ( θ ; x ) = ∏ i = 1 n f ( x i ; θ ) ) = Var ( ∂ ∂ θ ( ∑ i = 1 n ln f ( X i ; θ ) ) ) = Var ( ∑ i = 1 n ∂ ∂ θ ln f ( X i ; θ ) ) 根据微分的线性性质 = ∑ i = 1 n Var ( ∂ ∂ θ ln f ( X i ; θ ) ) 根据独立性 = n Var ( ∂ ∂ θ ln f ( X i ; θ ) ) 根据同分布性 = n E [ ( ∂ ln f ( X ; θ ) ∂ θ ) 2 ] 根据以上说明 = n I ( θ ) . {\displaystyle {\begin{aligned}{\mathcal {I}}_{n}(\theta )&=\mathbb {E} \left[\left({\frac {\partial \ln {\mathcal {L}}({\boldsymbol {\theta }};\mathbf {x} )}{\partial \theta }}\right)^{2}\right]\\&=\operatorname {Var} \left({\frac {\partial \ln {\mathcal {L}}({\boldsymbol {\theta }};\mathbf {x} )}{\partial \theta }}\right)&{\text{根据以上说明}}\\&=\operatorname {Var} \left({\frac {\partial }{\partial \theta }}\left(\ln \prod _{i=1}^{n}f(X_{i};{\boldsymbol {\theta }})\right)\right)&\left({\mathcal {L}}(\theta ;\mathbf {x} )=\prod _{i=1}^{n}f(x_{i};\theta )\right)\\&=\operatorname {Var} \left({\frac {\partial }{\partial \theta }}\left(\sum _{i=1}^{n}\ln f(X_{i};{\boldsymbol {\theta }})\right)\right)\\&=\operatorname {Var} \left(\sum _{i=1}^{n}{\frac {\partial }{\partial \theta }}\ln f(X_{i};{\boldsymbol {\theta }})\right)&{\text{根据微分的线性性质}}\\&=\sum _{i=1}^{n}\operatorname {Var} \left({\frac {\partial }{\partial \theta }}\ln f(X_{i};{\boldsymbol {\theta }})\right)&{\text{根据独立性}}\\&=n\operatorname {Var} \left({\frac {\partial }{\partial \theta }}\ln f(X_{i};{\boldsymbol {\theta }})\right)&{\text{根据同分布性}}\\&=n\mathbb {E} \left[\left({\frac {\partial \ln f(X;{\boldsymbol {\theta }})}{\partial \theta }}\right)^{2}\right]&{\text{根据以上说明}}\\&=n{\mathcal {I}}(\theta ).\end{aligned}}}
◻ {\displaystyle \Box }
命题。 在允许导数和积分交换的一些正则条件下, I ( θ ) = − E [ ∂ 2 ln f ( X ; θ ) ∂ θ 2 ] {\displaystyle {\mathcal {I}}(\theta )=-\mathbb {E} \left[{\frac {\partial ^{2}\ln f(X;{\boldsymbol {\theta }})}{\partial \theta ^{2}}}\right]} 。
备注。
这个命题非常有用,因为在对 ln f ( X ; θ ) {\displaystyle \ln f(X;{\boldsymbol {\theta }})} 进行偏微分后,许多 X {\displaystyle X} 很可能会消失,从而使期望值的计算变得更容易。
Proof. Since W {\displaystyle W} is an unbiased estimator of τ ( θ ) {\displaystyle \tau (\theta )} , we have by definition E [ W ] = τ ( θ ) {\displaystyle \mathbb {E} [W]=\tau (\theta )} . By definition of expectation, we have E [ W ] = ∫ − ∞ ∞ ⋯ ∫ − ∞ ∞ w L ( θ ; x ) d x n ⋯ d x 1 {\displaystyle \mathbb {E} [W]=\int _{-\infty }^{\infty }\dotsi \int _{-\infty }^{\infty }w{\mathcal {L}}(\theta ;\mathbf {x} )\,dx_{n}\cdots \,dx_{1}} where L ( θ ; x ) {\displaystyle {\mathcal {L}}(\theta ;\mathbf {x} )} is the likelihood function. Thus, ∫ − ∞ ∞ ⋯ ∫ − ∞ ∞ w L ( θ ; x ) d x n ⋯ d x 1 = τ ( θ ) ⇒ ∂ ∂ θ ∫ − ∞ ∞ ⋯ ∫ − ∞ ∞ w L ( θ ; x ) d x n ⋯ d x 1 = ∂ ∂ θ τ ( θ ) ⇒ ∫ − ∞ ∞ ⋯ ∫ − ∞ ∞ ∂ ∂ θ ( w L ( θ ; x ) ) d x n ⋯ d x 1 = τ ′ ( θ ) ⇒ ∫ − ∞ ∞ ⋯ ∫ − ∞ ∞ w ∂ ∂ θ ( L ( θ ; x ) ) ⋅ 1 L ( θ ; x ) ⋅ L ( θ ; x ) d x n ⋯ d x 1 = τ ′ ( θ ) ⇒ ∫ − ∞ ∞ ⋯ ∫ − ∞ ∞ w ∂ ln L ( θ ; x ) ∂ θ L ( θ ; x ) d x n ⋯ d x 1 = τ ′ ( θ ) ⇒ E [ W ⋅ ∂ ln L ( θ ; x ) ∂ θ ] = τ ′ ( θ ) ⇒ E [ W S ( θ ; X ) ] = τ ′ ( θ ) ( S ( θ ; X ) = ∂ ln L ( θ ; x ) ∂ θ ) ⇒ E [ W S ( θ ; X ) ] − E [ W ] E [ S ( θ ; X ) ] ⏟ = 0 = τ ′ ( θ ) ( E [ S ( θ ; X ) ] = 0 by remark about Fisher information ) ⇒ Cov ( W , S ( θ ; X ) ) = τ ′ ( θ ) {\displaystyle {\begin{aligned}&&\int _{-\infty }^{\infty }\dotsi \int _{-\infty }^{\infty }w{\mathcal {L}}(\theta ;\mathbf {x} )\,dx_{n}\cdots \,dx_{1}&=\tau (\theta )\\&\Rightarrow &{\frac {\partial }{\partial \theta }}\int _{-\infty }^{\infty }\dotsi \int _{-\infty }^{\infty }w{\mathcal {L}}(\theta ;\mathbf {x} )\,dx_{n}\cdots \,dx_{1}&={\frac {\partial }{\partial \theta }}\tau (\theta )\\&\Rightarrow &\int _{-\infty }^{\infty }\dotsi \int _{-\infty }^{\infty }{\frac {\partial }{\partial \theta }}\left(w{\mathcal {L}}(\theta ;\mathbf {x} )\right)\,dx_{n}\cdots \,dx_{1}&=\tau '(\theta )\\&\Rightarrow &\int _{-\infty }^{\infty }\dotsi \int _{-\infty }^{\infty }w{\frac {\partial }{\partial \theta }}\left({\mathcal {L}}(\theta ;\mathbf {x} )\right)\cdot {\frac {1}{{\mathcal {L}}(\theta ;\mathbf {x} )}}\cdot {\mathcal {L}}(\theta ;\mathbf {x} )\,dx_{n}\cdots \,dx_{1}&=\tau '(\theta )\\&\Rightarrow &\int _{-\infty }^{\infty }\dotsi \int _{-\infty }^{\infty }w{\frac {\partial \ln {\mathcal {L}}(\theta ;\mathbf {x} )}{\partial \theta }}{\mathcal {L}}(\theta ;\mathbf {x} )\,dx_{n}\cdots \,dx_{1}&=\tau '(\theta )\\&\Rightarrow &\mathbb {E} \left[W\cdot {\frac {\partial \ln {\mathcal {L}}(\theta ;\mathbf {x} )}{\partial \theta }}\right]&=\tau '(\theta )\\&\Rightarrow &\mathbb {E} \left[WS(\theta ;\mathbf {X} )\right]&=\tau '(\theta )&\left(S(\theta ;\mathbf {X} )={\frac {\partial \ln {\mathcal {L}}(\theta ;\mathbf {x} )}{\partial \theta }}\right)\\&\Rightarrow &\mathbb {E} \left[WS(\theta ;\mathbf {X} )\right]-\mathbb {E} [W]\underbrace {\mathbb {E} [S(\theta ;\mathbf {X} )]} _{=0}&=\tau '(\theta )&(\mathbb {E} [S(\theta ;\mathbf {X} )]=0{\text{ by remark about Fisher information}})\\&\Rightarrow &\operatorname {Cov} (W,S(\theta ;\mathbf {X} ))&=\tau '(\theta )\\\end{aligned}}} Consider the covariance inequality: ( Cov ( X , Y ) ) 2 ≤ Var ( X ) Var ( Y ) {\displaystyle (\operatorname {Cov} (X,Y))^{2}\leq \operatorname {Var} (X)\operatorname {Var} (Y)} . We have ( Cov ( W , S ( θ ; X ) ) ) 2 ≤ Var ( W ) Var ( S ( θ ; X ) ) ⟹ ( τ ′ ( θ ) ) 2 ≤ Var ( W ) Var ( S ( θ ; X ) ) ⟹ Var ( W ) ≥ ( τ ′ ( θ ) ) 2 Var ( S ( θ ; X ) ) = ( τ ′ ( θ ) ) 2 I n ( θ ) . {\displaystyle {\big (}\operatorname {Cov} (W,S(\theta ;\mathbf {X} )){\big )}^{2}\leq \operatorname {Var} (W)\operatorname {Var} (S(\theta ;\mathbf {X} ))\implies (\tau '(\theta ))^{2}\leq \operatorname {Var} (W)\operatorname {Var} (S(\theta ;\mathbf {X} ))\implies \operatorname {Var} (W)\geq {\frac {(\tau '(\theta ))^{2}}{\operatorname {Var} (S(\theta ;\mathbf {X} ))}}={\frac {(\tau '(\theta ))^{2}}{{\mathcal {I}}_{n}(\theta )}}.} ( I n ( θ ) = Var ( S ( θ ; X ) ) {\displaystyle {\mathcal {I}}_{n}(\theta )=\operatorname {Var} (S(\theta ;\mathbf {X} ))} by remark about Fisher information)
◻ {\displaystyle \Box }
有时,我们无法使用 CRLB 方法来寻找 UMVUE,因为
正则条件可能不满足,因此我们无法使用克拉美-拉奥不等式,以及
无偏估计量的方差可能不等于 CRLB,但我们不能由此得出它不是 UMVUE 的结论,因为 CRLB 可能根本无法达到,并且所有无偏估计量中最小的方差实际上是该估计量的方差,它大于 CRLB。
我们将在下面举例说明这两种情况。
由于CRLB有时可以达到,有时无法达到,因此很自然地会提出这样的问题:何时 可以达到CRLB。换句话说,我们想知道CRLB的可达条件 ,这些条件在以下推论中给出。
Proof. Considering the proof for Cramer-Rao inequality, we have Var ( W ) = ( τ ′ ( θ ) ) 2 I n ( θ ) ⟺ ( Cov ( W , S ( θ ; X ) ) ) 2 = Var ( W ) Var ( S ( θ ; X ) ) {\displaystyle \operatorname {Var} (W)={\frac {(\tau '(\theta ))^{2}}{{\mathcal {I}}_{n}(\theta )}}\iff (\operatorname {Cov} (W,S(\theta ;\mathbf {X} )))^{2}=\operatorname {Var} (W)\operatorname {Var} (S(\theta ;\mathbf {X} ))} We can write Cov ( W , S ( θ ; X ) ) {\displaystyle \operatorname {Cov} (W,S(\theta ;\mathbf {X} ))} as Cov ( W − τ ( θ ) ⏟ constant , S ( θ ; X ) ) {\displaystyle \operatorname {Cov} (W-\underbrace {\tau (\theta )} _{\text{constant}},S(\theta ;\mathbf {X} ))} (by result about covariance). Also, Var ( W ) = Var ( W − τ ( θ ) ⏟ constant ) {\displaystyle \operatorname {Var} (W)=\operatorname {Var} (W-\underbrace {\tau (\theta )} _{\text{constant}})} (by result about variance). Thus, we have ( Cov ( W − τ ( θ ) , S ( θ ; X ) ) ) 2 = Var ( W − τ ( θ ) ) Var ( S ( θ ; X ) ) ⇔ ( Cov ( W − τ ( θ ) , S ( θ ; X ) ) ) 2 Var ( W − τ ( θ ) ) Var ( S ( θ ; X ) ) = 1 ⇔ ( Cov ( S ( θ ; X ) , W − τ ( θ ) ) ) 2 Var ( W − τ ( θ ) ) Var ( S ( θ ; X ) ) = 1 ⇔ ( ρ ( S ( θ ; X ) , W − τ ( θ ) ) ) 2 = 1 ⇔ ρ ( S ( θ ; X ) , W − τ ( θ ) ) = ± 1 {\displaystyle {\begin{aligned}&&{\big (}\operatorname {Cov} (W-\tau (\theta ),S(\theta ;\mathbf {X} )){\big )}^{2}&=\operatorname {Var} (W-\tau (\theta ))\operatorname {Var} (S(\theta ;\mathbf {X} ))\\&\Leftrightarrow &{\frac {{\big (}\operatorname {Cov} (W-\tau (\theta ),S(\theta ;\mathbf {X} )){\big )}^{2}}{\operatorname {Var} (W-\tau (\theta ))\operatorname {Var} (S(\theta ;\mathbf {X} ))}}&=1\\&\Leftrightarrow &{\frac {{\big (}\operatorname {Cov} (S(\theta ;\mathbf {X} ),W-\tau (\theta )){\big )}^{2}}{\operatorname {Var} (W-\tau (\theta ))\operatorname {Var} (S(\theta ;\mathbf {X} ))}}&=1\\&\Leftrightarrow &{\big (}\rho (S(\theta ;\mathbf {X} ),W-\tau (\theta )){\big )}^{2}&=1\\&\Leftrightarrow &\rho (S(\theta ;\mathbf {X} ),W-\tau (\theta ))&=\pm 1\end{aligned}}} where ρ ( ⋅ , ⋅ ) {\displaystyle \rho (\cdot ,\cdot )} is the correlation coefficient between two random variables. This means S ( θ ; X ) {\displaystyle S(\theta ;\mathbf {X} )} increases or decreases linearly with W − τ ( θ ) {\displaystyle W-\tau (\theta )} , i.e., S ( θ ; X ) = k ( W − τ ( θ ) ) + c {\displaystyle S(\theta ;\mathbf {X} )=k(W-\tau (\theta ))+c} for some constants c , k {\displaystyle c,k} . Now, it suffices to show that the constant c {\displaystyle c} is actually zero.
我们知道 E [ W ] = τ ( θ ) {\displaystyle \mathbb {E} [W]=\tau (\theta )} (因为 W {\displaystyle W} 是 τ ( θ ) {\displaystyle \tau (\theta )} 的无偏估计量),并且 E [ S ( θ ; X ) ] = 0 {\displaystyle \mathbb {E} [S(\theta ;\mathbf {X} )]=0} (来自关于Fisher信息的备注)。因此,在两边应用期望得到 E [ S ( θ ; X ) ] = k E [ W − τ ( θ ) ] + c ⟺ E [ S ( θ ; X ) ] = k ( E [ W ] − τ ( θ ) ⏟ = 0 ) + c ⟺ 0 = 0 + c ⟺ c = 0. {\displaystyle \mathbb {E} [S(\theta ;\mathbf {X} )]=k\mathbb {E} [W-\tau (\theta )]+c\iff \mathbb {E} [S(\theta ;\mathbf {X} )]=k(\underbrace {\mathbb {E} [W]-\tau (\theta )} _{=0})+c\iff 0=0+c\iff c=0.} 然后,结果就出来了。
◻ {\displaystyle \Box }
示例。 延续前面的例子。证明 σ 2 {\displaystyle \sigma ^{2}} 的 CRLB **不能** 使用 CRLB 的可达条件得到。
备注。
即使我们知道 σ 2 {\displaystyle \sigma ^{2}} 的CRLB不可达,我们仍然不知道 n n − 1 ⋅ S 2 {\displaystyle {\frac {n}{n-1}}\cdot S^{2}} 是否为UMVUE,因为可能存在一些具有更小方差(但未达到CRLB)的无偏估计量。
我们之前讨论过MLE,MLE实际上是渐近的(即,当样本量 n → ∞ {\displaystyle n\to \infty } )“最佳选择”,根据以下定理。
Proof. Partial proof : we consider the Taylor series of order 2 for d d θ ln L ( θ ) {\displaystyle {\frac {d}{d\theta }}\ln {\mathcal {L}}(\theta )} , and we will get d d θ ln L ( θ ^ ) = d d θ ln L ( θ ) + ( θ ^ − θ ) d 2 d θ 2 ln L ( θ ) + 1 2 ( θ ^ − θ ) 2 d 3 d θ 3 ln L ( θ ) | θ = θ ∗ {\displaystyle {\frac {d}{d\theta }}\ln {\mathcal {L}}({\hat {\theta }})={\frac {d}{d\theta }}\ln {\mathcal {L}}(\theta )+({\hat {\theta }}-\theta ){\frac {d^{2}}{d\theta ^{2}}}\ln {\mathcal {L}}(\theta )+{\frac {1}{2}}({\hat {\theta }}-\theta )^{2}{\frac {d^{3}}{d\theta ^{3}}}\ln {\mathcal {L}}(\theta ){\bigg \vert }_{\theta =\theta ^{*}}} where θ ∗ {\displaystyle \theta ^{*}} is between θ {\displaystyle \theta } and θ ^ {\displaystyle {\hat {\theta }}} . Since θ ^ {\displaystyle {\hat {\theta }}} is the MLE of θ {\displaystyle \theta } , from the derivative test, we know that d d θ ln L ( θ ^ ) = 0 {\displaystyle {\frac {d}{d\theta }}\ln {\mathcal {L}}({\hat {\theta }})=0} (we apply regularity condition to ensure the existence of this derivative). Hence, we have d d θ ln L ( θ ) + ( θ ^ − θ ) d 2 d θ 2 ln L ( θ ) + 1 2 ( θ ^ − θ ) 2 d 3 d θ 3 ln L ( θ ) | θ = θ ∗ = 0 ⇒ − n ( θ ^ − θ ) d 2 d θ 2 ln L ( θ ) − n 2 ( θ ^ − θ ) 2 d 3 d θ 3 ln L ( θ ) | θ = θ ∗ = n d d θ ln L ( θ ) ⇒ n ( θ ^ − θ ) = d d θ ln L ( θ ) / n − n − 1 d 2 d θ 2 ln L ( θ ) − ( 2 n ) − 1 ( θ ^ − θ ) d 3 d θ 3 ln L ( θ ) | θ = θ ∗ . {\displaystyle {\begin{aligned}&&{\frac {d}{d\theta }}\ln {\mathcal {L}}(\theta )+({\hat {\theta }}-\theta ){\frac {d^{2}}{d\theta ^{2}}}\ln {\mathcal {L}}(\theta )+{\frac {1}{2}}({\hat {\theta }}-\theta )^{2}{\frac {d^{3}}{d\theta ^{3}}}\ln {\mathcal {L}}(\theta ){\bigg \vert }_{\theta =\theta ^{*}}&=0\\&\Rightarrow &-{\sqrt {n}}({\hat {\theta }}-\theta ){\frac {d^{2}}{d\theta ^{2}}}\ln {\mathcal {L}}(\theta )-{\frac {\sqrt {n}}{2}}({\hat {\theta }}-\theta )^{2}{\frac {d^{3}}{d\theta ^{3}}}\ln {\mathcal {L}}(\theta ){\bigg \vert }_{\theta =\theta ^{*}}={\sqrt {n}}{\frac {d}{d\theta }}\ln {\mathcal {L}}(\theta )\\&\Rightarrow &{\sqrt {n}}({\hat {\theta }}-\theta )={\frac {{\frac {d}{d\theta }}\ln {\mathcal {L}}(\theta )/{\sqrt {n}}}{-n^{-1}{\frac {d^{2}}{d\theta ^{2}}}\ln {\mathcal {L}}(\theta )-(2n)^{-1}({\hat {\theta }}-\theta ){\frac {d^{3}}{d\theta ^{3}}}\ln {\mathcal {L}}(\theta ){\bigg \vert }_{\theta =\theta ^{*}}}}.\end{aligned}}} Since Var ( ∑ i = 1 n ∂ ln f ( X i ; θ ) ∂ θ ) = ∑ i = 1 n Var ( ∂ ln f ( X i ; θ ) ∂ θ ) = ∑ i = 1 n E [ ( ∂ ln f ( X i ; θ ) ∂ θ ) 2 ] = n I ( θ ) ( 1 ) , {\displaystyle \operatorname {Var} \left(\sum _{i=1}^{n}{\frac {\partial \ln f(X_{i};\theta )}{\partial \theta }}\right)=\sum _{i=1}^{n}\operatorname {Var} \left({\frac {\partial \ln f(X_{i};\theta )}{\partial \theta }}\right)=\sum _{i=1}^{n}\mathbb {E} \left[\left({\frac {\partial \ln f(X_{i};\theta )}{\partial \theta }}\right)^{2}\right]=n{\mathcal {I}}(\theta )\qquad (1),} by central limit theorem, d d θ ln L ( θ ) n = 1 n ∑ i = 1 n ∂ ln f ( X i ; θ ) ∂ θ → d N ( 0 , ( 1 / n ) n I ( θ ) ) ≡ N ( 0 , I ( θ ) ) . {\displaystyle {\frac {{\frac {d}{d\theta }}\ln {\mathcal {L}}(\theta )}{\sqrt {n}}}={\frac {1}{\sqrt {n}}}\sum _{i=1}^{n}{\frac {\partial \ln f(X_{i};\theta )}{\partial \theta }}\;{\overset {d}{\to }}\;{\mathcal {N}}(0,(1/n)nI(\theta ))\equiv {\mathcal {N}}(0,{\mathcal {I}}(\theta )).} Furthermore, we apply the weak law of large number to show that − n − 1 d 2 d θ 2 ln L ( θ ) = − 1 n ∑ i = 1 n ∂ 2 ln f ( X i ; θ ) ∂ θ 2 → p − E [ ∂ 2 ln f ( X i ; θ ) ∂ θ 2 ] = I ( θ ) ( 2 ) . {\displaystyle -n^{-1}{\frac {d^{2}}{d\theta ^{2}}}\ln {\mathcal {L}}(\theta )=-{\frac {1}{n}}\sum _{i=1}^{n}{\frac {\partial ^{2}\ln f(X_{i};\theta )}{\partial \theta ^{2}}}\;{\overset {p}{\to }}\;-\mathbb {E} \left[{\frac {\partial ^{2}\ln f(X_{i};\theta )}{\partial \theta ^{2}}}\right]={\mathcal {I}}(\theta )\qquad (2).} It can be shown in a quite complicated way (and using regularity conditions) that − ( 2 n ) − 1 ( θ ^ − θ ) d 3 d θ 3 ln L ( θ ) | θ = θ ∗ → p 0. ( 3 ) . {\displaystyle -(2n)^{-1}({\hat {\theta }}-\theta ){\frac {d^{3}}{d\theta ^{3}}}\ln {\mathcal {L}}(\theta ){\bigg \vert }_{\theta =\theta ^{*}}\;{\overset {p}{\to }}\;0.\qquad (3).} Considering ( 2 ) {\displaystyle (2)} and ( 3 ) {\displaystyle (3)} , using property of convergence in probability, we have − n − 1 d 2 d θ 2 ln L ( θ ) − ( 2 n ) − 1 ( θ ^ − θ ) d 3 d θ 3 ln L ( θ ) | θ = θ ∗ → p I ( θ ) + 0 = I ( θ ) ( 4 ) . {\displaystyle -n^{-1}{\frac {d^{2}}{d\theta ^{2}}}\ln {\mathcal {L}}(\theta )-(2n)^{-1}({\hat {\theta }}-\theta ){\frac {d^{3}}{d\theta ^{3}}}\ln {\mathcal {L}}(\theta ){\bigg \vert }_{\theta =\theta ^{*}}\;{\overset {p}{\to }}\;{\mathcal {I}}(\theta )+0={\mathcal {I}}(\theta )\qquad (4).} Considering ( 1 ) {\displaystyle (1)} and ( 4 ) {\displaystyle (4)} , and using Slutsky's theorem, we have n ( θ ^ − θ ) = d d θ ln L ( θ ) / n − n − 1 d 2 d θ 2 ln L ( θ ) − ( 2 n ) − 1 ( θ ^ − θ ) d 3 d θ 3 ln L ( θ ) | θ = θ ∗ → d Y I ( θ ) {\displaystyle {\sqrt {n}}({\hat {\theta }}-\theta )={\frac {{\frac {d}{d\theta }}\ln {\mathcal {L}}(\theta )/{\sqrt {n}}}{-n^{-1}{\frac {d^{2}}{d\theta ^{2}}}\ln {\mathcal {L}}(\theta )-(2n)^{-1}({\hat {\theta }}-\theta ){\frac {d^{3}}{d\theta ^{3}}}\ln {\mathcal {L}}(\theta ){\bigg \vert }_{\theta =\theta ^{*}}}}\;{\overset {d}{\to }}\;{\frac {Y}{{\mathcal {I}}(\theta )}}} where Y ∼ N ( 0 , I ( θ ) ) {\displaystyle Y\sim {\mathcal {N}}(0,{\mathcal {I}}(\theta ))} , and hence Y I ( θ ) ∼ N ( 0 , I ( θ ) [ I ( θ ) ] 2 ) ≡ N ( 0 , 1 / I ( θ ) ) {\displaystyle {\frac {Y}{{\mathcal {I}}(\theta )}}\sim {\mathcal {N}}\left(0,{\frac {{\mathcal {I}}(\theta )}{[{\mathcal {I}}(\theta )]^{2}}}\right)\equiv {\mathcal {N}}(0,1/{\mathcal {I}}(\theta ))} . It follows that n ( θ ^ − θ ) → d N ( 0 , 1 / I ( θ ) ) . {\displaystyle {\sqrt {n}}({\hat {\theta }}-\theta )\;{\overset {d}{\to }}\;{\mathcal {N}}(0,1/{\mathcal {I}}(\theta )).} This means θ ^ − θ → d N ( 0 , 1 / ( n I ( θ ) ) ) ≡ N ( 0 , 1 / I n ( θ ) ) , {\displaystyle {\hat {\theta }}-\theta \;{\overset {d}{\to }}\;{\mathcal {N}}(0,1/(n{\mathcal {I}}(\theta )))\equiv {\mathcal {N}}(0,1/{\mathcal {I}}_{n}(\theta )),} and thus θ ^ − θ 1 / I n ( θ ) → d N ( 0 , 1 / ( n I ( θ ) ) 1 / I n ( θ ) ⏟ = n I ( θ ) ) ≡ N ( 0 , 1 ) {\displaystyle {\frac {{\hat {\theta }}-\theta }{\sqrt {1/{\mathcal {I}}_{n}(\theta )}}}\;{\overset {d}{\to }}\;{\mathcal {N}}{\Bigg (}0,{\frac {1/(n{\mathcal {I}}(\theta ))}{1/\underbrace {{\mathcal {I}}_{n}(\theta )} _{=n{\mathcal {I}}(\theta )}}}{\Bigg )}\equiv {\mathcal {N}}(0,1)} as desired.
◻ {\displaystyle \Box }
由于在某些情况下我们无法使用CRLB来找到UMVUE,因此我们将在下面介绍另一种找到UMVUE的方法,该方法使用充分性 和完备性 的概念。
直观地讲,一个充分统计量 T ( X 1 , … , X n ) {\displaystyle T(X_{1},\dotsc ,X_{n})} ,它是给定随机样本 X 1 , … , X n {\displaystyle X_{1},\dotsc ,X_{n}} 的函数,包含了估计未知参数(向量) θ {\displaystyle \theta } 所需的所有信息。因此,统计量 T ( X 1 , … , X n ) {\displaystyle T(X_{1},\dotsc ,X_{n})} 本身对于估计未知参数(向量) θ {\displaystyle \theta } 是“充分”的。
正式地,我们可以如下定义和描述充分统计量
备注。
f ( x 1 , … , x n | T ; θ ) = f ( x 1 , … , x n | T ) {\displaystyle f(x_{1},\dotsc ,x_{n}|T;\theta )=f(x_{1},\dotsc ,x_{n}|T)}
其中 f {\displaystyle f} 是 X 1 , … , X n {\displaystyle X_{1},\dotsc ,X_{n}} 的联合概率密度函数或概率质量函数。
该等式意味着 X 1 , … , X n {\displaystyle X_{1},\dotsc ,X_{n}} 给定( T {\displaystyle T} 的)值的联合条件概率质量函数或概率密度函数与 X 1 , … , X n {\displaystyle X_{1},\dotsc ,X_{n}} 给定( T {\displaystyle T} 的)值,以及参数值 θ {\displaystyle \theta } 的联合条件概率质量函数或概率密度函数相同。
这意味着即使提供了参数值 θ {\displaystyle \theta } ,概率质量函数 (pmf) 或概率密度函数 (pdf) 也不会发生变化,这反过来意味着给定 T {\displaystyle T} 的值, X 1 , … , X n {\displaystyle X_{1},\dotsc ,X_{n}} 的联合条件 pmf 或 pdf 实际上并不依赖于 θ {\displaystyle \theta } 。
f ( x 1 , … , x n | T ) {\displaystyle f(x_{1},\dotsc ,x_{n}|T)} 指的是 f X 1 , … , X n | T ( x 1 , … , x n | t ) {\displaystyle f_{X_{1},\dotsc ,X_{n}|T}(x_{1},\dotsc ,x_{n}|t)} 在实现 T = t {\displaystyle T=t} 之前 ,它是一个随机变量(随机性来自 T {\displaystyle T} )。
在实现 T = t {\displaystyle T=t} 之后,该等式仍然成立( T {\displaystyle T} 修改为 T = t {\displaystyle T=t} )。
我们将在下面正式陈述上述关于充分统计量变换的说明。
现在,我们讨论一个定理,它可以帮助我们检查统计量的充分性,即(Fisher-Neyman)因子分解定理 。
定理. (因子分解定理)设 f ( x 1 , … , x n ; θ ) {\displaystyle f(x_{1},\dotsc ,x_{n};\theta )} 是随机样本 X 1 , … , X n {\displaystyle X_{1},\dotsc ,X_{n}} 的联合概率密度函数或概率质量函数。统计量 T = T ( X 1 , … , X n ) {\displaystyle T=T(X_{1},\dotsc ,X_{n})} 是 θ {\displaystyle \theta } 的充分统计量 当且仅当存在函数 g {\displaystyle g} 和 h {\displaystyle h} 使得 f ( x 1 , … , x n ; θ ) = g ( T ( x 1 , … , x n ) ; θ ) h ( x 1 , … , x n ) {\displaystyle f(x_{1},\dotsc ,x_{n};\theta )=g(T(x_{1},\dotsc ,x_{n});\theta )h(x_{1},\dotsc ,x_{n})} 其中 g {\displaystyle g} 仅通过 T ( x 1 , … , x n ) {\displaystyle T(x_{1},\dotsc ,x_{n})} 依赖于 x 1 , … , x n {\displaystyle x_{1},\dotsc ,x_{n}} ,并且 h {\displaystyle h} 不 依赖于 θ {\displaystyle \theta } 。
证明。 由于连续情况下的证明相当复杂,我们只给出离散情况下的证明。为简化表达,令 X = ( X 1 , … , X n ) {\displaystyle \mathbf {X} =(X_{1},\dotsc ,X_{n})} , T = T ( X 1 , … , X n ) {\displaystyle T=T(X_{1},\dotsc ,X_{n})} , x = ( x 1 , … , x n ) {\displaystyle \mathbf {x} =(x_{1},\dotsc ,x_{n})} , 以及 t = T ( x 1 , … , x n ) {\displaystyle t=T(x_{1},\dotsc ,x_{n})} ,因此根据这些可以得到不同类型的概率质量函数的符号。根据定义, f X | T ( x | t ; θ ) = f X | T ( x , t ) {\displaystyle f_{\mathbf {X} |T}(\mathbf {x} |t;\theta )=f_{\mathbf {X} |T}(\mathbf {x} ,t)} 。此外,我们有 X = x ⟺ X = x ∩ T ( X ) = T ( x ) ⟺ X = x ∩ T = t {\displaystyle \mathbf {X} =\mathbf {x} \iff \mathbf {X} =\mathbf {x} \cap T(\mathbf {X} )=T(\mathbf {x} )\iff \mathbf {X} =\mathbf {x} \cap T=t} 。因此,我们可以写成 f X , T ( x , t ; θ ) = f X ( x ; θ ) ( ∗ ) {\displaystyle f_{\mathbf {X} ,T}(\mathbf {x} ,t;\theta )=f_{\mathbf {X} }(\mathbf {x} ;\theta )\quad (*)} 。
“仅当” ( ⇒ {\displaystyle \Rightarrow } ) 方向:假设 T {\displaystyle T} 是充分统计量。然后,我们选择 g ( t ; θ ) = f T ( t ; θ ) {\displaystyle g(t;\theta )=f_{T}(t;\theta )} 和 h ( x ) = f X | T ( x | t ) {\displaystyle h(\mathbf {x} )=f_{\mathbf {X} |T}(\mathbf {x} |t)} ,根据充分统计量的定义,它不依赖于 θ {\displaystyle \theta } 。现在需要验证对于这个选择,方程是否成立。
因此, f X ( x ; θ ) = f X , T ( x , t ; θ ) = def f X | T ( x | t ; θ ) f T ( t ; θ ) = sufficiency f X | T ( x | t ) f T ( t ; θ ) = h ( x ) g ( t ; θ ) . {\displaystyle f_{\mathbf {X} }(\mathbf {x} ;\theta )=f_{\mathbf {X} ,T}(\mathbf {x} ,t;\theta ){\overset {\text{ def }}{=}}f_{\mathbf {X} |T}(\mathbf {x} |t;\theta )f_{T}(t;\theta ){\overset {\text{ sufficiency }}{=}}f_{\mathbf {X} |T}(\mathbf {x} |t)f_{T}(t;\theta )=h(\mathbf {x} )g(t;\theta ).}
"if" ( ⇐ {\displaystyle \Leftarrow } ) direction: Assume we can write f X ( x ; θ ) = g ( t ; θ ) h ( x ) {\displaystyle f_{\mathbf {X} }(\mathbf {x} ;\theta )=g(t;\theta )h(\mathbf {x} )} . Then, f T ( t ; θ ) = marginal pmf ∑ x f X , T ( x , t ; θ ) = (*) ∑ x f X ( x ; θ ) = assumption ∑ x g ( t ; θ ) h ( x ) = g ( t ; θ ) ⏟ independent from x ∑ x h ( x ) . {\displaystyle f_{T}(t;\theta ){\overset {\text{ marginal pmf }}{=}}\sum _{\mathbf {x} }^{}f_{\mathbf {X} ,T}(\mathbf {x} ,t;\theta ){\overset {\text{ (*) }}{=}}\sum _{\mathbf {x} }^{}f_{\mathbf {X} }(\mathbf {x} ;\theta ){\overset {\text{ assumption }}{=}}\sum _{\mathbf {x} }^{}g(t;\theta )h(\mathbf {x} )=\underbrace {g(t;\theta )} _{{\text{independent from }}\mathbf {x} }\sum _{\mathbf {x} }^{}h(\mathbf {x} ).} Now, we aim to show that f X | T ( x | t ) {\displaystyle f_{\mathbf {X} |T}(\mathbf {x} |t)} does not depend on θ {\displaystyle \theta } , which means T {\displaystyle T} is a sufficient statistic for θ {\displaystyle \theta } . We have f X | T ( x | t ) = def f X , T ( x , t ; θ ) f T ( t ; θ ) = (*) f X ( x ; θ ) f T ( t ; θ ) = g ( t ; θ ) h ( x ) ⏞ assumption g ( t ; θ ) ∑ x h ( x ) ⏟ above = h ( x ) ∑ x h ( x ) , {\displaystyle f_{\mathbf {X} |T}(\mathbf {x} |t){\overset {\text{ def }}{=}}{\frac {f_{\mathbf {X} ,T}(\mathbf {x} ,t;\theta )}{f_{T}(t;\theta )}}{\overset {\text{ (*) }}{=}}{\frac {f_{\mathbf {X} }(\mathbf {x} ;\theta )}{f_{T}(t;\theta )}}={\frac {\overbrace {g(t;\theta )h(\mathbf {x} )} ^{\text{assumption}}}{\underbrace {g(t;\theta )\sum _{\mathbf {x} }^{}h(\mathbf {x} )} _{\text{above}}}}={\frac {h(\mathbf {x} )}{\sum _{\mathbf {x} }^{}h(\mathbf {x} )}},} which does not depend on θ {\displaystyle \theta } , as desired.
◻ {\displaystyle \Box }
备注。
h ( x 1 , … , x n ) {\displaystyle h(x_{1},\dotsc ,x_{n})} 也可能是一个常数,显然不依赖于 θ {\displaystyle \theta } 。
示例. 考虑来自 N ( μ , σ 2 ) {\displaystyle {\mathcal {N}}(\mu ,\sigma ^{2})} 的一个随机样本 X 1 , … , X n {\displaystyle X_{1},\dotsc ,X_{n}} 。找到 θ = ( μ , σ 2 ) {\displaystyle \theta =(\mu ,\sigma ^{2})} 的充分统计量。
Solution : The joint pdf of X 1 , … , X n {\displaystyle X_{1},\dotsc ,X_{n}} is f ( x 1 , … , x n ; θ ) = ∏ i = 1 n 1 2 π σ 2 exp ( − ( x i − μ ) 2 2 σ 2 ) = ( 2 π σ 2 ) − n / 2 exp ( ∑ i = 1 n ( x i − μ ) 2 2 σ 2 ) = ( 2 π σ 2 ) − n / 2 exp ( ∑ i = 1 n ( x i − x ¯ + x ¯ − μ ) 2 2 σ 2 ) = ( 2 π σ 2 ) − n / 2 exp ( ∑ i = 1 n ( x i − x ¯ ) 2 + 2 ( x i − x ¯ ) ( x ¯ − μ ) + ( x ¯ − μ ) 2 2 σ 2 ) = ( 2 π σ 2 ) − n / 2 exp ( ∑ i = 1 n ( x i − x ¯ ) 2 + ( x ¯ − μ ) 2 2 σ 2 ) ( ∑ i = 1 n ( x i − x ¯ ) ( x ¯ − μ ) = ( x ¯ − μ ) ∑ i = 1 n ( x i − x ¯ ) = ( x ¯ − μ ) ( ∑ i = 1 n x i − ∑ i = 1 n x ¯ ) = ( x ¯ − μ ) ( n x ¯ − n x ¯ ) = 0 ) = ( 2 π σ 2 ) − n / 2 exp ( 1 2 σ 2 ( ∑ i = 1 n ( x i − x ¯ ) 2 + ∑ i = 1 n ( x ¯ − μ ) 2 ) ) = ( 2 π ) − n / 2 ⏟ h ( x 1 , … , x n ) σ − n exp ( 1 2 σ 2 ( n s 2 + n ( x ¯ − μ ) 2 ) ) ⏟ g ( T ( x 1 , … , x n ) ; θ ) ( ( x ¯ − μ ) 2 is independent from i ) . {\displaystyle {\begin{aligned}f(x_{1},\dotsc ,x_{n};\theta )&=\prod _{i=1}^{n}{\frac {1}{\sqrt {2\pi \sigma ^{2}}}}\exp \left(-{\frac {(x_{i}-\mu )^{2}}{2\sigma ^{2}}}\right)\\&=(2\pi \sigma ^{2})^{-n/2}\exp \left(\sum _{i=1}^{n}{\frac {(x_{i}-\mu )^{2}}{2\sigma ^{2}}}\right)\\&=(2\pi \sigma ^{2})^{-n/2}\exp \left(\sum _{i=1}^{n}{\frac {(x_{i}{\color {darkgreen}-{\overline {x}}+{\overline {x}}}-\mu )^{2}}{2\sigma ^{2}}}\right)\\&=(2\pi \sigma ^{2})^{-n/2}\exp \left(\sum _{i=1}^{n}{\frac {(x_{i}{\color {darkgreen}-{\overline {x}}})^{2}+2(x_{i}-{\overline {x}})({\overline {x}}-\mu )+({\color {darkgreen}{\overline {x}}}-\mu )^{2}}{2\sigma ^{2}}}\right)\\&=(2\pi \sigma ^{2})^{-n/2}\exp \left(\sum _{i=1}^{n}{\frac {(x_{i}{\color {darkgreen}-{\overline {x}}})^{2}+({\color {darkgreen}{\overline {x}}}-\mu )^{2}}{2\sigma ^{2}}}\right)&\left(\sum _{i=1}^{n}(x_{i}-{\overline {x}})({\overline {x}}-\mu )=({\overline {x}}-\mu )\sum _{i=1}^{n}(x_{i}-{\overline {x}})=({\overline {x}}-\mu )\left(\sum _{i=1}^{n}x_{i}-\sum _{i=1}^{n}{\overline {x}}\right)=({\overline {x}}-\mu )(n{\overline {x}}-n{\overline {x}})=0\right)\\&=(2\pi \sigma ^{2})^{-n/2}\exp \left({\frac {1}{2\sigma ^{2}}}\left(\sum _{i=1}^{n}(x_{i}{\color {darkgreen}-{\overline {x}}})^{2}+\sum _{i=1}^{n}({\color {darkgreen}{\overline {x}}}-\mu )^{2}\right)\right)\\&=\underbrace {(2\pi )^{-n/2}} _{h(x_{1},\dotsc ,x_{n})}\underbrace {\sigma ^{-n}\exp \left({\frac {1}{2\sigma ^{2}}}\left(ns^{2}+n({\overline {x}}-\mu )^{2}\right)\right)} _{g(T(x_{1},\dotsc ,x_{n});\theta )}&\left(({\overline {x}}-\mu )^{2}{\text{ is independent from }}i\right).\\\end{aligned}}} Notice that the function g {\displaystyle g} depends on x 1 , … , x n {\displaystyle x_{1},\dotsc ,x_{n}} only through T ( x 1 , … , x n ) = ( x ¯ , s 2 ) {\displaystyle T(x_{1},\dotsc ,x_{n})=({\overline {x}},s^{2})} , so we can conclude that T ( X 1 , … , X n ) = ( X ¯ , S 2 ) {\displaystyle T(X_{1},\dotsc ,X_{n})=({\overline {X}},S^{2})} .
备注。
我们也可以将 ( X ¯ , S 2 ) {\displaystyle ({\overline {X}},S^{2})} 写成 ( S 2 , X ¯ ) {\displaystyle (S^{2},{\overline {X}})} θ {\displaystyle \theta } 的充分统计量。
直观地说,这是因为后者也包含相同的统计量,因此包含相同的信息。
或者,我们可以将函数 v {\displaystyle v} 定义为 ( z 1 , z 2 ) ↦ ( z 2 , z 1 ) {\displaystyle (z_{1},z_{2})\mapsto (z_{2},z_{1})} ,这是一个双射函数,因此 v ( X ¯ , S 2 ) = ( S 2 , X ¯ ) {\displaystyle v({\overline {X}},S^{2})=(S^{2},{\overline {X}})} 也是 θ {\displaystyle \theta } 的充分统计量。
我们需要从 ( 2 π σ 2 ) − n / 2 {\displaystyle (2\pi \sigma ^{2})^{-n/2}} 中分离出 σ − n {\displaystyle \sigma ^{-n}} ,因为对于函数 h ( x 1 , … , x n ) {\displaystyle h(x_{1},\dotsc ,x_{n})} ,它不能依赖于 θ = ( μ , σ 2 ) {\displaystyle \theta =(\mu ,\sigma ^{2})} 。因此,我们不能在 h ( x 1 , … , x n ) {\displaystyle h(x_{1},\dotsc ,x_{n})} 函数的定义中包含 σ − n {\displaystyle \sigma ^{-n}} 。
在这种情况下,定义 g {\displaystyle g} 和 h {\displaystyle h} 函数的方法有很多。
对于一些“良好”的分布,它们属于指数族 ,可以使用另一种替代方法更容易且更方便地找到充分统计量。这种方法之所以有效,是因为这些分布的pdf或pmf具有“良好”的形式,其特征如下
定义。 (指数族分布)随机变量 X {\displaystyle X} 的分布属于指数族分布,如果 X {\displaystyle X} 的概率密度函数或概率质量函数具有以下形式: f ( x ; θ ) = h ( x ) g ( θ ) exp ( ∑ i = 1 s η i ( θ ) T i ( x ) ) {\displaystyle f(x;\theta )=h(x)g(\theta )\exp \left(\sum _{i=1}^{\color {darkgreen}s}\eta _{i}(\theta )T_{i}(x)\right)} 其中 θ = ( θ 1 , … , θ s ) ∈ Θ ⊆ R s {\displaystyle \theta =(\theta _{1},\dotsc ,\theta _{\color {darkgreen}s})\in \Theta \subseteq \mathbb {R} ^{\color {darkgreen}s}} ,对于某些函数 h , g , η i , T i {\displaystyle h,g,\eta _{i},T_{i}} ( i = 1 , 2 … , s {\displaystyle i=1,2\dotsc ,s} )。
定理. (指数族的充分统计量)设 X 1 , … , X n {\displaystyle X_{1},\dotsc ,X_{n}} 是来自指数族分布的一个随机样本,其概率密度函数或概率质量函数为 f ( x ; θ ) {\displaystyle f(x;\theta )} ,其中 θ ∈ R s {\displaystyle \theta \in \mathbb {R} ^{s}} 。那么, θ {\displaystyle \theta } 的一个充分统计量 是 T ( X 1 , … , X n ) = ( ∑ j = 1 n T 1 ( X j ) , … , ∑ j = 1 n T s ( X j ) ) . {\displaystyle T(X_{1},\dotsc ,X_{n})=\left(\sum _{j=1}^{n}T_{1}(X_{j}),\dotsc ,\sum _{j=1}^{n}T_{s}(X_{j})\right).}
Proof. Since the distribution belongs to the exponential family, the joint pdf or pmf of X 1 , … , X n {\displaystyle X_{1},\dotsc ,X_{n}} can be expressed as f ( x 1 , … , x n ; θ ) = ∏ j = 1 n [ h ( x j ) g ( θ ) exp ( ∑ i = 1 s η i ( θ ) T i ( x j ) ) ] = [ ∏ j = 1 n h ( x j ) ] ( g ( θ ) ) n exp ( ∑ j = 1 n ∑ i = 1 s η i ( θ ) T i ( x j ) ) = [ ∏ j = 1 n h ( x j ) ] ( g ( θ ) ) n exp ( ∑ i = 1 s ∑ j = 1 n η i ( θ ) T i ( x j ) ) ( changing summation order, where the upper bounds are constants ) = [ ∏ j = 1 n h ( x j ) ] ( g ( θ ) ) n exp ( ∑ i = 1 s η i ( θ ) ⏟ independent from j ∑ j = 1 n T i ( x j ) ) = [ ∏ j = 1 n h ( x j ) ] ( g ( θ ) ) n exp ( η 1 ( θ ) ∑ j = 1 n T 1 ( x j ) + ⋯ + η s ( θ ) ∑ j = 1 n T s ( x j ) ) . {\displaystyle {\begin{aligned}f(x_{1},\dotsc ,x_{n};\theta )&=\prod _{{\color {blue}j}=1}^{n}\left[h(x_{\color {blue}j})g(\theta )\exp \left(\sum _{i=1}^{\color {darkgreen}s}\eta _{i}(\theta )T_{i}(x_{\color {blue}j})\right)\right]\\&=\left[\prod _{j=1}^{n}h(x_{j})\right](g(\theta ))^{n}\exp \left(\sum _{{\color {blue}j}=1}^{n}\sum _{i=1}^{s}\eta _{i}(\theta )T_{i}(x_{\color {blue}j})\right)\\&=\left[\prod _{j=1}^{n}h(x_{j})\right](g(\theta ))^{n}\exp \left(\sum _{i=1}^{s}\sum _{{\color {blue}j}=1}^{n}\eta _{i}(\theta )T_{i}(x_{\color {blue}j})\right)&({\text{changing summation order, where the upper bounds are constants}})\\&=\left[\prod _{j=1}^{n}h(x_{j})\right](g(\theta ))^{n}\exp \left(\sum _{i=1}^{s}\underbrace {\eta _{i}(\theta )} _{{\text{independent from }}j}\sum _{{\color {blue}j}=1}^{n}T_{i}(x_{\color {blue}j})\right)\\&={\color {purple}\left[\prod _{j=1}^{n}h(x_{j})\right]}{\color {red}(g(\theta ))^{n}\exp \left(\eta _{1}(\theta )\sum _{{\color {blue}j}=1}^{n}T_{1}(x_{\color {blue}j})+\dotsb +\eta _{s}(\theta )\sum _{{\color {blue}j}=1}^{n}T_{s}(x_{\color {blue}j})\right)}.\\\end{aligned}}} From here, for applying the factorization theorem, we can identify the purple part of the function as " h ( x 1 , … , x n ) {\displaystyle h(x_{1},\dotsc ,x_{n})} ", and the red part of the function as " g ( T ( x 1 , … , x n ) ; θ ) {\displaystyle g(T(x_{1},\dotsc ,x_{n});\theta )} ". We can notice that the red part of the function depends on x 1 , … , x n {\displaystyle x_{1},\dotsc ,x_{n}} only through ( ∑ j = 1 n T 1 ( x j ) , … , ∑ j = 1 n T s ( x j ) ) {\displaystyle \left(\sum _{j=1}^{n}T_{1}(x_{j}),\dotsc ,\sum _{j=1}^{n}T_{s}(x_{j})\right)} . The result follows.
◻ {\displaystyle \Box }
例. 考虑来自 N ( μ , σ 2 ) {\displaystyle {\mathcal {N}}(\mu ,\sigma ^{2})} 的一个随机样本 X 1 , … , X n {\displaystyle X_{1},\dotsc ,X_{n}} 。利用寻找指数族充分统计量的结果,证明 θ = ( μ , σ 2 ) {\displaystyle \theta =(\mu ,\sigma ^{2})} 的充分统计量是 ( X ¯ , S 2 ) {\displaystyle \left({\overline {X}},S^{2}\right)} 。
证明. 从前面的例子中,我们已经证明正态分布属于指数族,并且从那里的表达式中,我们可以看出 θ {\displaystyle \theta } 的充分统计量是 T = ( ∑ j = 1 n X , ∑ j = 1 n X 2 ) = ( n X ¯ , n X 2 ¯ ) {\displaystyle T=\left(\sum _{j=1}^{n}X,\sum _{j=1}^{n}X^{2}\right)=\left(n{\overline {X}},n{\overline {X^{2}}}\right)} 。
由于 S 2 = 1 n ∑ j = 1 n ( X j − X ¯ ) 2 = 1 n ∑ j = 1 n ( X j 2 − 2 X j X ¯ + ( X ¯ ) 2 ) = ∑ j = 1 n X j 2 n − 2 X ¯ n ∑ j = 1 n X j + ( X ¯ ) 2 = X 2 ¯ − 2 ( X ¯ ) 2 + ( X ¯ ) 2 = X 2 ¯ − ( X ¯ ) 2 {\displaystyle S^{2}={\frac {1}{n}}\sum _{j=1}^{n}(X_{j}-{\overline {X}})^{2}={\frac {1}{n}}\sum _{j=1}^{n}\left(X_{j}^{2}-2X_{j}{\overline {X}}+({\overline {X}})^{2}\right)={\frac {\sum _{j=1}^{n}X_{j}^{2}}{n}}-{\frac {2{\overline {X}}}{n}}\sum _{j=1}^{n}X_{j}+({\overline {X}})^{2}={\overline {X^{2}}}-2({\overline {X}})^{2}+({\overline {X}})^{2}={\overline {X^{2}}}-({\overline {X}})^{2}} ,我们可以定义函数 v {\displaystyle v} 为 ( z 1 , z 2 ) ↦ ( z 1 / n , z 2 / n − ( z 1 / n ) 2 ) , {\displaystyle (z_{1},z_{2})\mapsto \left(z_{1}/n,z_{2}/n-(z_{1}/n)^{2}\right),} ,可以证明这是一个双射函数。
因此, v ( T ) = ( X ¯ , S 2 ) {\displaystyle v(T)=\left({\overline {X}},S^{2}\right)} 也是 θ {\displaystyle \theta } 的充分统计量。
◻ {\displaystyle \Box }
现在,我们将开始讨论充分统计量与UMVUE之间的关系。我们从Rao-Blackwell定理 开始讨论。
为了实际确定UMVUE,我们需要另一个定理,称为莱曼-谢菲定理 ,它基于Rao-Blackwell定理,并且需要完备性 的概念。
当随机样本 X 1 , … , X n {\displaystyle X_{1},\dotsc ,X_{n}} 来自指数族中的分布时,也可以很容易地找到完备统计量,类似于充分统计量的情况。
定理. (指数族的完备统计量)如果 X 1 , … , X n {\displaystyle X_{1},\dotsc ,X_{n}} 是来自指数族分布的一个随机样本,其中未知参数(向量) θ ∈ Θ ⊆ R s {\displaystyle \theta \in \Theta \subseteq \mathbb {R} ^{\color {darkgreen}s}} ,则 T ( X 1 , … , X n ) = ( ∑ j = 1 n T 1 ( X j ) , ∑ j = 1 n T 2 ( X j ) , … , ∑ j = 1 n T s ( X j ) ) {\displaystyle T(X_{1},\dotsc ,X_{n})=\left(\sum _{j=1}^{n}T_{1}(X_{j}),\sum _{j=1}^{n}T_{2}(X_{j}),\dotsc ,\sum _{j=1}^{n}T_{\color {darkgreen}s}(X_{j})\right)} 是一个完备统计量,前提是 参数空间 Θ {\displaystyle \Theta } 在 R s {\displaystyle \mathbb {R} ^{\color {darkgreen}s}} 中包含一个开集 .
证明. 略。
◻ {\displaystyle \Box }
示例. 考虑来自 N ( μ , σ 2 ) {\displaystyle {\mathcal {N}}(\mu ,\sigma ^{2})} 的一个随机样本 X 1 , … , X n {\displaystyle X_{1},\dotsc ,X_{n}} 。令未知参数向量为 θ = ( μ , σ 2 ) {\displaystyle \theta =(\mu ,\sigma ^{2})} 。
(a) 证明 θ {\displaystyle \theta } 的充分统计量,即 ( X ¯ , S 2 ) {\displaystyle \left({\overline {X}},S^{2}\right)} ,也是一个完备统计量。
(b) 因此,证明 X ¯ {\displaystyle {\overline {X}}} 和 n n − 1 ⋅ S 2 {\displaystyle {\frac {n}{n-1}}\cdot S^{2}} 分别是 μ {\displaystyle \mu } 和 σ 2 {\displaystyle \sigma ^{2}} 的UMVUE。
解答 :
(a)
(b)
示例。 考虑来自伯努利分布的随机样本 X 1 , … , X n {\displaystyle X_{1},\dotsc ,X_{n}} ,其成功概率为 p {\displaystyle p} ,即 Ber ( p ) {\displaystyle \operatorname {Ber} (p)} ,其概率质量函数为 f ( x ; p ) = p x ( 1 − p ) 1 − x , x = 0 , 1 {\displaystyle f(x;p)=p^{x}(1-p)^{1-x},\quad x=0,1} 。
(a) 找到 p {\displaystyle p} 的一个完备充分统计量 T {\displaystyle T} 。
(b) 因此,找到 p {\displaystyle p} 的UMVUE。
(c) 证明 1 { X 1 = 1 } {\displaystyle \mathbf {1} \{X_{1}=1\}} 是 p {\displaystyle p} 的无偏估计量,并且 E [ 1 { X 1 = 1 } | T ] {\displaystyle \mathbb {E} [\mathbf {1} \{X_{1}=1\}|T]} 是 p {\displaystyle p} 的UMVUE。
解答
(a) 概率质量函数 (pmf) f ( x ; p ) = p x ( 1 − p ) 1 − x = ( 1 − p ) ( p 1 − p ) x = ( 1 ) ⏟ h ( x ) ( 1 − p ) ⏟ g ( θ ) exp ( x ⏟ T ( x ) ln ( p 1 − p ) ⏟ η ( p ) ) {\displaystyle f(x;p)=p^{x}(1-p)^{1-x}=(1-p)\left({\frac {p}{1-p}}\right)^{x}=\underbrace {(1)} _{h(x)}\underbrace {(1-p)} _{g(\theta )}\exp \left(\underbrace {x} _{T(x)}\underbrace {\ln \left({\frac {p}{1-p}}\right)} _{\eta (p)}\right)} 。这意味着伯努利分布属于指数族。此外,参数空间 Θ = { p : 0 ≤ p ≤ 1 } {\displaystyle \Theta =\{p:0\leq p\leq 1\}} 在 R {\displaystyle \mathbb {R} } 中包含一个开集。因此, T = ∑ j = 1 n X j {\displaystyle T=\sum _{j=1}^{n}X_{j}} 是 p {\displaystyle p} 的完备充分统计量。
(b) 注意到 E [ T / n ] = E [ X ¯ ] = n p n = p {\displaystyle \mathbb {E} [T/n]=\mathbb {E} [{\overline {X}}]={\frac {np}{n}}=p} 。因此, X ¯ {\displaystyle {\overline {X}}} (它是 T {\displaystyle T} 的函数)是 p {\displaystyle p} 的UMVUE。
(c)
证明。 由于 E [ 1 { X 1 = 1 } ] = ( 1 ) P ( X 1 = 1 ) = p {\displaystyle \mathbb {E} [\mathbf {1} \{X_{1}=1\}]=(1)\mathbb {P} (X_{1}=1)=p} , 1 { X 1 = 1 } {\displaystyle \mathbf {1} \{X_{1}=1\}} 是 p {\displaystyle p} 的无偏估计量。
Now, we consider E [ 1 { X 1 = 1 } | T ] = E [ 1 { X 1 = 1 } | ∑ j = 1 n X j ] {\displaystyle \mathbb {E} [\mathbf {1} \{X_{1}=1\}|T]=\mathbb {E} \left[\mathbf {1} \{X_{1}=1\}|\sum _{j=1}^{n}X_{j}\right]} . We denote ∑ j = 1 n X j {\displaystyle \sum _{j=1}^{n}X_{j}} by S n {\displaystyle S_{n}} . Then, this expectation becomes E [ 1 { X 1 = 1 } | S n ] {\displaystyle \mathbb {E} [\mathbf {1} \{X_{1}=1\}|S_{n}]} . In the following, we evaluate E [ 1 { X 1 = 1 } | S n = s n ] {\displaystyle \mathbb {E} [\mathbf {1} \{X_{1}=1\}|S_{n}=s_{n}]} . E [ 1 { X 1 = 1 } | ∑ j = 1 n X j = s n ] = ( 1 ) P ( 1 { X 1 = 1 } = 1 | ∑ j = 1 n X j = s n ) ( definition ) = P ( X 1 = 1 | ∑ j = 1 n X j = s n ) = P ( ∑ j = 1 n X j = s n | X 1 = 1 ) P ( X 1 = 1 ) P ( ∑ j = 1 n X j = s n ) ( Bayes' theorem ) = P ( ∑ j = 2 n X j = s n − 1 ) ⋅ p P ( ∑ j = 1 n X j = s n ) {\displaystyle {\begin{aligned}\mathbb {E} \left[\mathbf {1} \{X_{1}=1\}|\sum _{j=1}^{n}X_{j}=s_{n}\right]&=(1)\mathbb {P} \left(\mathbf {1} \{X_{1}=1\}=1|\sum _{j=1}^{n}X_{j}=s_{n}\right)&({\text{definition}})\\&=\mathbb {P} \left(X_{1}=1|\sum _{j=1}^{n}X_{j}=s_{n}\right)\\&={\frac {\mathbb {P} \left(\sum _{j=1}^{n}X_{j}=s_{n}|X_{1}=1\right)\mathbb {P} (X_{1}=1)}{\mathbb {P} \left(\sum _{j=1}^{n}X_{j}=s_{n}\right)}}&({\text{Bayes' theorem}})\\&={\frac {\mathbb {P} \left(\sum _{j=2}^{n}X_{j}=s_{n}-1\right)\cdot p}{\mathbb {P} \left(\sum _{j=1}^{n}X_{j}=s_{n}\right)}}\\\end{aligned}}} Notice that ∑ j = 1 n X j {\displaystyle \sum _{j=1}^{n}X_{j}} follows the binomial distribution with n {\displaystyle n} trials with success probability p {\displaystyle p} , i.e., Binom ( n , p ) {\displaystyle \operatorname {Binom} (n,p)} , and ∑ j = 2 n X j ∼ Binom ( n − 1 , p ) {\displaystyle \sum _{j=2}^{n}X_{j}\sim \operatorname {Binom} (n-1,p)} . Hence, P ( ∑ j = 2 n X j = s n − 1 ) ⋅ p P ( ∑ j = 1 n X j = s n ) = ( n − 1 s n − 1 ) p s n − 1 ( 1 − p ) n − 1 − s n + 1 ⋅ p ( n s n ) p s n ( 1 − p ) n − s n ( binomial distribution pmf's ) = ( n − 1 ) ! ( s n − 1 ) ! ( n − s n ) ! n ! s n ! ( n − s n ) ! = ( n − 1 ) ! s n ( s n − 1 ) ! n ( n − 1 ) ! ( s n − 1 ) ! ( s n ! = s n ( s n − 1 ) ! and n ! = n ( n − 1 ) ! ) = s n n . {\displaystyle {\begin{aligned}{\frac {\mathbb {P} \left(\sum _{j=2}^{n}X_{j}=s_{n}-1\right)\cdot p}{\mathbb {P} \left(\sum _{j=1}^{n}X_{j}=s_{n}\right)}}&={\frac {{\binom {n-1}{s_{n}-1}}p^{s_{n}-1}(1-p)^{n-1-s_{n}+1}\cdot p}{{\binom {n}{s_{n}}}p^{s_{n}}(1-p)^{n-s_{n}}}}&({\text{binomial distribution pmf's}})\\&={\frac {\frac {(n-1)!}{(s_{n}-1)!(n-s_{n})!}}{\frac {n!}{s_{n}!(n-s_{n})!}}}\\&={\frac {(n-1)!s_{n}(s_{n}-1)!}{n(n-1)!(s_{n}-1)!}}&(s_{n}!=s_{n}(s_{n}-1)!{\text{ and }}n!=n(n-1)!)\\&={\frac {s_{n}}{n}}.\end{aligned}}} Now, replacing s n {\displaystyle s_{n}} by S n = ∑ j = 1 n X j {\displaystyle S_{n}=\sum _{j=1}^{n}X_{j}} gives E [ 1 { X 1 = 1 } | ∑ j = 1 n X j ] = ∑ j = 1 n X j n = X ¯ , {\displaystyle \mathbb {E} \left[\mathbf {1} \{X_{1}=1\}|\sum _{j=1}^{n}X_{j}\right]={\frac {\sum _{j=1}^{n}X_{j}}{n}}={\overline {X}},} which is the UMVUE of p {\displaystyle p} , as desired.
◻ {\displaystyle \Box }
练习。 我们能否使用 p {\displaystyle p} 的CRLB找到 p {\displaystyle p} 的UMVUE?如果可以,请用这种方法找到它。如果不行,请解释原因。
解答
不可以。这是因为对数似然函数不可微(仅当 x = 0 , 1 {\displaystyle x=0,1} 时才具有非零值),因此费舍尔信息未定义。因此,CRLB 不存在。
练习。 考虑来自参数为 λ {\displaystyle \lambda } 的泊松分布的随机样本 X 1 , … , X n {\displaystyle X_{1},\dotsc ,X_{n}} ,其概率质量函数(pmf)为 f ( x ; λ ) = e − λ λ x x ! {\displaystyle f(x;\lambda )={\frac {e^{-\lambda }\lambda ^{x}}{x!}}} 。
(a) 求 λ {\displaystyle \lambda } 的完备充分统计量。
(b) 求 λ / n {\displaystyle \lambda /n} 的UMVUE。
在前面的章节中,我们讨论了 无偏性 和 有效性 。在本节中,我们将讨论另一个称为 一致性 的性质。
Proof. Assume θ ^ {\displaystyle {\hat {\theta }}} is an (asymptotically) unbiased estimator of an unknown parameter θ {\displaystyle \theta } and Var ( θ ^ ) → 0 {\displaystyle \operatorname {Var} ({\hat {\theta }})\to 0} as n → ∞ {\displaystyle n\to \infty } . Since θ ^ {\displaystyle {\hat {\theta }}} is an (asymptotically) unbiased estimator of θ {\displaystyle \theta } , we have lim n → ∞ Bias ( θ ^ ) = 0 {\displaystyle \lim _{n\to \infty }\operatorname {Bias} ({\hat {\theta }})=0} (this is true for both asymptotically unbiased estimator and unbiased estimator of θ {\displaystyle \theta } ). In addition to this, we have by assumption that lim n → ∞ Var ( θ ^ ) = 0 {\displaystyle \lim _{n\to \infty }\operatorname {Var} ({\hat {\theta }})=0} . By definition of mean squared error, these imply that lim n → ∞ MSE ( θ ^ ) = 0 ⇒ lim n → ∞ E [ ( θ ^ − θ ) 2 ] = 0 {\displaystyle \lim _{n\to \infty }\operatorname {MSE} ({\hat {\theta }})=0\Rightarrow \lim _{n\to \infty }\mathbb {E} [({\hat {\theta }}-\theta )^{2}]=0} . Thus, as n → ∞ {\displaystyle n\to \infty } , we have by Chebyshov's inequality (notice that MSE ( θ ^ ) = E [ ( θ ^ − θ ) 2 ] {\displaystyle \operatorname {MSE} ({\hat {\theta }})=\mathbb {E} [({\hat {\theta }}-\theta )^{2}]} exist from above), for each ε > 0 {\displaystyle \varepsilon >0} , P ( | θ ^ − θ | > ε ) ≤ E [ ( θ ^ − θ ) 2 ] ε 2 → 0 ε 2 = 0. {\displaystyle \mathbb {P} (|{\hat {\theta }}-\theta |>\varepsilon )\leq {\frac {\mathbb {E} [({\hat {\theta }}-\theta )^{2}]}{\varepsilon ^{2}}}\to {\frac {0}{\varepsilon ^{2}}}=0.} Since probability is nonnegative ( ≥ 0 {\displaystyle \geq 0} ), and this probability is less than or equal to an expression that tends to be 0 as n → ∞ {\displaystyle n\to \infty } , we conclude that this probability tends to be zero as n → ∞ {\displaystyle n\to \infty } . That is, θ ^ {\displaystyle {\hat {\theta }}} is a consistent estimator of θ {\displaystyle \theta } .
◻ {\displaystyle \Box }
↑ 对于参数向量,它包含控制分布的所有参数。
↑ 当我们不知道它是参数向量还是只是一个参数时,我们将简单地使用“ θ {\displaystyle \theta } ”。如果我们知道它确实是一个参数向量,我们可以使用 θ {\displaystyle \theta } 来代替。
↑ 我们将在#估计量的性质 部分讨论“好”的一些标准。
↑ β − β ′ = ( max { x 1 , … , x n } + β − max { x 1 , … , x n } ) − ( max { x 1 , … , x n } + β − max { x 1 , … , x n } 2 ) = β − max { x 1 , … , x n } 2 > 0 {\displaystyle \beta -\beta '={\big (}\max\{x_{1},\dotsc ,x_{n}\}+\beta -\max\{x_{1},\dotsc ,x_{n}\}{\big )}-\left(\max\{x_{1},\dotsc ,x_{n}\}+{\frac {\beta -\max\{x_{1},\dotsc ,x_{n}\}}{2}}\right)={\frac {\beta -\max\{x_{1},\dotsc ,x_{n}\}}{2}}>0} . 因此, β ′ < β {\displaystyle \beta '<\beta } .
↑ 对于每个正整数 r {\displaystyle r} , m r {\displaystyle m_{r}} 始终存在,不像 μ r {\displaystyle \mu _{r}} 。
↑ “一致”表示与其他无偏估计量相比,方差最小,在参数空间 Θ {\displaystyle \Theta } 上(即,对于 θ ∈ Θ {\displaystyle \theta \in \Theta } 的每个可能值)。也就是说,方差不仅对于 θ {\displaystyle \theta } 的特定值最小,而是对于 θ {\displaystyle \theta } 的所有可能值最小。
↑ 这与最小值不同。对于下界 ,它只需要小于所有相关的方差,并且可能不存在任何实际达到此下界的方差。但是,对于最小值,它必须是方差的值之一。
↑ 注意,这比 Rao-Blackwell 定理中的结果更强,后者仅说明 Var ( φ ( T ) ) ≤ Var ( W ) {\displaystyle \operatorname {Var} (\varphi (T))\leq \operatorname {Var} (W)} ,对于与 φ ( T ) {\displaystyle \varphi (T)} 对应的 W {\displaystyle W} 成立。
↑ 实际上,我们知道 UMVUE 根据之前的命题必须是唯一的。但是,在这个论证中,当我们证明 φ ( T ) {\displaystyle \varphi (T)} 是 UMVUE 时,我们也自动证明了它是唯一的。