在前面的章节中,我们讨论了两种用于估计未知参数 的方法,即点估计 和区间估计 。估计未知参数是统计推断中一个重要的领域,在本节中,我们将讨论另一个重要领域,即假设检验 ,它与决策 有关。事实上,置信区间 和假设检验 的概念密切相关,正如我们将演示的那样。
在讨论如何进行 假设检验以及评估 假设检验的“好坏”之前,让我们首先介绍一些与假设检验相关的基本概念和术语。
定义。 (假设)一个(统计)假设 是对总体参数的陈述。
有两个术语用来对假设进行分类
定义。 (简单和复合假设)如果一个假设完全指定 了总体的分布(也就是说,该分布是完全已知的,没有任何未知参数参与),则它是简单假设 ,否则它是复合假设 。
有时,是否一个假设是简单还是复合并不立即清楚。为了更清楚地理解假设的分类,让我们考虑以下示例。
在假设检验中,我们考虑两个假设。
H 0 {\displaystyle H_{0}} 和 H 1 {\displaystyle H_{1}} 的一般形式是 H 0 : θ ∈ Θ 0 {\displaystyle H_{0}:\theta \in \Theta _{0}} 和 H 1 : θ ∈ Θ 1 {\displaystyle H_{1}:\theta \in \Theta _{1}} ,其中 Θ 1 = Θ 0 c {\displaystyle \Theta _{1}=\Theta _{0}^{c}} ,它是 Θ 0 {\displaystyle \Theta _{0}} 的补集 (相对于 Θ {\displaystyle \Theta } ),即 Θ 0 c = Θ ∖ Θ 0 {\displaystyle \Theta _{0}^{c}=\Theta \setminus \Theta _{0}} ( Θ {\displaystyle \Theta } 是参数空间,包含 θ {\displaystyle \theta } 的所有可能值)。选择 Θ 0 {\displaystyle \Theta _{0}} 的补集在 H 1 {\displaystyle H_{1}} 中的原因是 H 1 {\displaystyle H_{1}} 是 H 0 {\displaystyle H_{0}} 的补充假设,如上述定义所示。
示例. 假设你的朋友给你一枚硬币让你抛,你不知道它是否是公平的。然而,由于这枚硬币是由你的朋友给你的,你相信这枚硬币是公平的,除非有充分的证据表明并非如此。在这个背景下,零假设和备择假设是什么(假设硬币永远不会立起来)?
解答 . 令 p {\displaystyle p} 为抛硬币后正面朝上的概率。零假设是 H 0 : p = 1 2 {\displaystyle H_{0}:p={\frac {1}{2}}} 。备择假设是 H 1 : p ≠ 1 2 {\displaystyle H_{1}:p\neq {\frac {1}{2}}} .
练习. 假设我们在上面的问题中将“硬币”替换为“六面骰子”。零假设和备择假设是什么?(提示 : 你可以令 p 1 , p 2 , … , p 6 {\displaystyle p_{1},p_{2},\dotsc ,p_{6}} 分别表示“1”、“2”、“3”、“4”、“5”、“6” 在掷骰子后出现的概率)
解决方案
令 p 1 , p 2 , … , p 6 {\displaystyle p_{1},p_{2},\dotsc ,p_{6}} 分别表示“1”、“2”、“3”、“4”、“5”、“6” 在掷骰子后出现的概率。零假设是 H 0 : p 1 = p 2 = ⋯ = p 6 = 1 6 {\displaystyle H_{0}:p_{1}=p_{2}=\dotsb =p_{6}={\frac {1}{6}}} ,备择假设是 H 1 : 至少有一个 p 1 , … , p 6 ≠ 1 6 {\displaystyle H_{1}:{\text{at least one of }}p_{1},\dotsc ,p_{6}\neq {\frac {1}{6}}} (事实上,当 p 1 , … , p 6 {\displaystyle p_{1},\dotsc ,p_{6}} 中的一个不等于 1 6 {\displaystyle {\frac {1}{6}}} 时,它必然会导致至少另一个概率不同于 1 6 {\displaystyle {\frac {1}{6}}} )。
我们已经提到,假设 H 0 {\displaystyle H_{0}} 和 H 1 {\displaystyle H_{1}} 之一为真。为了做出决定,我们需要 决定 哪个假设应该被认为是正确的。当然,正如你可能预料的那样,这个决定并不完美,我们的决定会有一些错误。因此,我们不能说我们“证明”一个特定的假设是正确的(也就是说,我们不能 确定 一个特定的假设是正确的)。尽管如此,当我们有 足够的证据 让我们做出这个决定(理想情况下,错误很小 [ 2] )时,我们可以“认为”(或“接受”)一个特定的假设是正确的(但 不是 证明它是正确的)。
现在,我们面临着两个问题。首先,我们应该考虑哪些证据?其次,“足够”是什么意思?对于第一个问题,一个自然的答案是,我们应该考虑观察到的样本 ,对吗?这是因为我们对总体进行假设,而样本是从总体中抽取的,因此与总体密切相关,这应该有助于我们做出决定。
为了回答第二个问题,我们需要假设检验 的概念。特别是在假设检验中,我们将构建一个所谓的拒绝域 或临界域 来帮助我们确定是否 应该拒绝零 假设(即,认为 H 0 {\displaystyle H_{0}} 为假),因此(自然地)认为 H 1 {\displaystyle H_{1}} 为真(“接受” H 1 {\displaystyle H_{1}} )(我们假设 H 0 {\displaystyle H_{0}} 和 H 1 {\displaystyle H_{1}} 中只有一个为真,因此当我们认为其中一个为假时,我们应该认为另一个为真)。特别地,当我们不 拒绝 H 0 {\displaystyle H_{0}} 时,我们将像 H 0 {\displaystyle H_{0}} 为真那样行动,或者接受 H 0 {\displaystyle H_{0}} 为真(因此也应该拒绝 H 1 {\displaystyle H_{1}} ,因为 H 0 {\displaystyle H_{0}} 或 H 1 {\displaystyle H_{1}} 中只有一个为真)。
让我们正式定义以下与假设检验相关的术语。
备注:
假设检验有时为了简洁起见简称为“检验”。我们有时也使用希腊字母" φ {\displaystyle \varphi } "," ψ {\displaystyle \psi } ",等等来表示检验。
备注:
S
*------------*
|///|........|
|///\........|
|////\.......|
|/////\......|
*------------*
*--*
|//|: R
*--*
*--*
|..|: R^c
*--*
通常,我们使用 检验统计量 (用于进行假设检验的统计量)来指定拒绝域。例如,如果随机样本是 X 1 , … , X n {\displaystyle X_{1},\dotsc ,X_{n}} 且检验统计量是 X ¯ {\displaystyle {\overline {X}}} ,则拒绝域可能是,例如, R = { x : x ¯ < 2 } {\displaystyle R=\{\mathbf {x} :{\overline {x}}<2\}} (其中 x 1 , … , x n {\displaystyle x_{1},\dotsc ,x_{n}} 和 x ¯ {\displaystyle {\overline {x}}} 分别是 X 1 , … , X n {\displaystyle X_{1},\dotsc ,X_{n}} 和 X ¯ {\displaystyle {\overline {X}}} 的观察值)。通过这种方式,我们可以直接构建假设检验:当 x ∈ R {\displaystyle \mathbf {x} \in R} 时,我们拒绝 H 0 {\displaystyle H_{0}} 并接受 H 1 {\displaystyle H_{1}} 。否则,如果 x ∈ R c {\displaystyle \mathbf {x} \in R^{c}} ,我们接受 H 0 {\displaystyle H_{0}} 。因此,一般来说,为了在假设检验中指定规则,我们只需要一个 拒绝域 。之后,我们将应用该检验来检验 H 0 {\displaystyle H_{0}} 相对于 H 1 {\displaystyle H_{1}} 。关于以这种方式构建的假设检验,有一些相关的术语
示例。 假设拒绝域为 R = { ( x 1 , x 2 , x 3 ) : x 1 + x 2 + x 3 > 6 } {\displaystyle R=\{(x_{1},x_{2},x_{3}):x_{1}+x_{2}+x_{3}>6\}} ,并且观察到 x 1 = 1 , x 2 = 2 , x 3 = 3 {\displaystyle x_{1}=1,x_{2}=2,x_{3}=3} 。我们应该接受哪个假设, H 0 {\displaystyle H_{0}} 还是 H 1 {\displaystyle H_{1}} ?
解答 。由于 ( x 1 , x 2 , x 3 ) ∈ R c {\displaystyle (x_{1},x_{2},x_{3})\in R^{c}} ,我们应该(不拒绝并)接受 H 0 {\displaystyle H_{0}} 。
练习。 这种假设检验是什么类型?
正如我们已经提到的,假设检验做出的决定不应该完美,并且会发生错误。事实上,当我们仔细思考时,实际上有两种类型 的错误,如下所示
我们可以使用以下表格更清楚地说明这两种类型的错误。
I 类和 II 类错误
接受 H 0 {\displaystyle H_{0}}
拒绝 H 0 {\displaystyle H_{0}}
H 0 {\displaystyle H_{0}} 为真
正确决策
I 类错误
H 0 {\displaystyle H_{0}} 为假
II 类错误
正确决策
我们可以表示 H 0 : θ ∈ Θ 0 {\displaystyle H_{0}:\theta \in \Theta _{0}} 和 H 1 : θ ∈ Θ 0 c {\displaystyle H_{1}:\theta \in \Theta _{0}^{c}} 。另外,假设拒绝域为 R = R ( X ) {\displaystyle R=R(\mathbf {X} )} (即,用 " X {\displaystyle X} " 替换 " x {\displaystyle x} " 的拒绝域)。通常,当 " R {\displaystyle R} " 与 " X {\displaystyle X} " 结合在一起时,我们假设 R = R ( X ) {\displaystyle R=R(\mathbf {X} )} 。
接下来,我们针对犯第一类和第二类错误的 概率 做一些符号和表达式说明:(假设 X 1 , … , X n {\displaystyle X_{1},\dotsc ,X_{n}} 是一个随机样本, X = ( X 1 , … , X n ) {\displaystyle \mathbf {X} =(X_{1},\dotsc ,X_{n})} )
犯第一类错误的概率,记作 α ( θ ) {\displaystyle \alpha (\theta )} ,当 θ ∈ Θ 0 {\displaystyle \theta \in \Theta _{0}} 时,为 P θ ( X ∈ R ) {\displaystyle \mathbb {P} _{\theta }(\mathbf {X} \in R)} 。
犯第二类错误的概率,记作 β ( θ ) {\displaystyle \beta (\theta )} ,当 θ ∈ Θ 0 c {\displaystyle \theta \in \Theta _{0}^{c}} 时,为 P θ ( X ∈ R c ) = 1 − P θ ( X ∈ R ) {\displaystyle \mathbb {P} _{\theta }(\mathbf {X} \in R^{c})=1-\mathbb {P} _{\theta }(\mathbf {X} \in R)} 。
请注意, α ( θ ) {\displaystyle \alpha (\theta )} 和 β ( θ ) {\displaystyle \beta (\theta )} 中有一个共同的表达式,即“ P θ ( ( X 1 , … , X n ) ∈ R ) {\displaystyle \mathbb {P} _{\theta }((X_{1},\dotsc ,X_{n})\in R)} ”。事实上,我们也可以将此表达式写成 P θ ( ( X 1 , … , X n ) ∈ R ) = { α ( θ ) , θ ∈ Θ 0 ; 1 − β ( θ ) , θ ∈ Θ 0 c . {\displaystyle \mathbb {P} _{\theta }((X_{1},\dotsc ,X_{n})\in R)={\begin{cases}\alpha (\theta ),&\theta \in \Theta _{0};\\1-\beta (\theta ),&\theta \in \Theta _{0}^{c}.\end{cases}}} 通过此表达式,我们可以观察到,它包含了所有关于错误概率的信息,这些错误概率来自于一个具有拒绝域 R {\displaystyle R} 的假设检验。因此,我们将为它赋予一个特殊的名称。
示例: 假设我们掷一枚(公平或不公平)硬币 5 次(假设硬币永远不会侧立),并且我们有以下假设: H 0 : p ≤ 1 2 vs. H 1 : p > 1 2 {\displaystyle H_{0}:p\leq {\frac {1}{2}}\quad {\text{vs.}}\quad H_{1}:p>{\frac {1}{2}}} 其中 p {\displaystyle p} 是掷硬币后正面朝上的概率。令 X 1 , … , X 5 {\displaystyle X_{1},\dotsc ,X_{5}} 为 5 次掷硬币的随机样本,并且 x 1 , … , x 5 {\displaystyle x_{1},\dotsc ,x_{5}} 是相应的实现。此外,随机样本的值为 1(如果出现正面),否则为 0。假设我们将在所有 5 次掷硬币中都出现正面时拒绝 H 0 {\displaystyle H_{0}} 。
(a) 确定拒绝区域 R {\displaystyle R} 。
(b) 功率函数是什么 π ( p ) {\displaystyle \pi (p)} (用 p {\displaystyle p} 表示)?
(c) 计算 α ( 1 / 2 ) {\displaystyle \alpha (1/2)} 和 β ( 2 / 3 ) {\displaystyle \beta (2/3)} 。
解决方案 .
(a) 拒绝区域 R = { ( x 1 , … , x 5 ) : x 1 + ⋯ + x 5 = 5 } {\displaystyle R=\{(x_{1},\dotsc ,x_{5}):x_{1}+\dotsb +x_{5}=5\}} 。
(b) 功率函数为 π ( p ) = { P θ ( ( X 1 , … , X 5 ) ∈ R ) = p 5 , p ≤ 1 2 ; 1 − P θ ( ( X 1 , … , X 5 ) ∈ R ) = 1 − p 5 , p > 1 2 . {\displaystyle \pi (p)={\begin{cases}\mathbb {P} _{\theta }((X_{1},\dotsc ,X_{5})\in R)=p^{5},&p\leq {\frac {1}{2}};\\1-\mathbb {P} _{\theta }((X_{1},\dotsc ,X_{5})\in R)=1-p^{5},&p>{\frac {1}{2}}.\end{cases}}}
(c) 我们有 α ( 1 / 2 ) = ( 1 2 ) 5 = 0.03125 {\displaystyle \alpha (1/2)=\left({\frac {1}{2}}\right)^{5}=0.03125} 以及 β ( 2 / 3 ) = 1 − ( 2 3 ) 5 ≈ 0.8683 {\displaystyle \beta (2/3)=1-\left({\frac {2}{3}}\right)^{5}\approx 0.8683} 。(注意,虽然 I 类错误的概率可能很低,但 II 类错误的概率可能很高。这是因为,直观地,拒绝 H 0 {\displaystyle H_{0}} 是“困难”的,因为要求很严格。所以,即使 H 0 {\displaystyle H_{0}} 是假的,它可能不被拒绝,从而导致 II 类错误。)
示例。 假设 X 1 , … , X n {\displaystyle X_{1},\dotsc ,X_{n}} 是来自正态分布 N ( μ , σ 2 ) {\displaystyle {\mathcal {N}}(\mu ,\sigma ^{2})} 的随机样本,其中 σ 2 {\displaystyle \sigma ^{2}} 已知。考虑以下假设: H 0 : μ ≤ μ 0 vs. μ > μ 0 {\displaystyle H_{0}:\mu \leq \mu _{0}\quad {\text{vs.}}\quad \mu >\mu _{0}} 其中 μ 0 {\displaystyle \mu _{0}} 是一个常数。我们使用检验统计量 T = X ¯ − μ 0 σ / n ∼ N ( 0 , 1 ) {\displaystyle T={\frac {{\overline {X}}-\mu _{0}}{\sigma /{\sqrt {n}}}}\sim {\mathcal {N}}(0,1)} 进行假设检验,当且仅当 T ≥ k {\displaystyle T\geq k} 时,我们拒绝 H 0 {\displaystyle H_{0}} 。
求功效函数 π ( μ ) {\displaystyle \pi (\mu )} , lim μ → − ∞ π ( μ ) {\displaystyle \lim _{\mu \to -\infty }\pi (\mu )} 和 lim μ → ∞ π ( μ ) {\displaystyle \lim _{\mu \to \infty }\pi (\mu )} 。
解决方案 。 幂函数是 π ( μ ) = P μ ( T ≥ k ) = P μ ( X ¯ − μ 0 σ / n ≥ k ) = P μ ( X ¯ − μ + μ − μ 0 σ / n ≥ k ) = P μ ( X ¯ − μ σ / n ≥ k + μ 0 − μ σ / n ) = P ( Z ≥ k + μ 0 − μ σ / n ) . ( Z ∼ N ( 0 , 1 ) , which is independent from μ , so we can drop the subscript ` μ ' for P ) {\displaystyle {\begin{aligned}\pi (\mu )&=\mathbb {P} _{\mu }(T\geq k)\\&=\mathbb {P} _{\mu }\left({\frac {{\overline {X}}-\mu _{0}}{\sigma /{\sqrt {n}}}}\geq k\right)\\&=\mathbb {P} _{\mu }\left({\frac {{\overline {X}}-\mu +\mu -\mu _{0}}{\sigma /{\sqrt {n}}}}\geq k\right)\\&=\mathbb {P} _{\mu }\left({\frac {{\overline {X}}-\mu }{\sigma /{\sqrt {n}}}}\geq k+{\frac {\mu _{0}-\mu }{\sigma /{\sqrt {n}}}}\right)\\&=\mathbb {P} \left(Z\geq k+{\frac {\mu _{0}-\mu }{\sigma /{\sqrt {n}}}}\right).&(Z\sim {\mathcal {N}}(0,1),{\text{ which is independent from }}\mu ,{\text{so we can drop the subscript `}}\mu {\text{' for }}\mathbb {P} )\\\end{aligned}}} 因此, lim μ → − ∞ π ( μ ) = P ( Z ≥ ∞ ) = 0 {\displaystyle \lim _{\mu \to -\infty }\pi (\mu )=\mathbb {P} (Z\geq \infty )=0} 并且 lim μ → ∞ π ( μ ) = P ( Z ≥ − ∞ ) = 1 {\displaystyle \lim _{\mu \to \infty }\pi (\mu )=\mathbb {P} (Z\geq -\infty )=1} (一些符号上的滥用),根据累积分布函数的定义。(事实上, π ( μ ) {\displaystyle \pi (\mu )} 是 μ {\displaystyle \mu } 的严格递增函数。)
练习。 证明如果 P ( Z ≥ k ) = α {\displaystyle \mathbb {P} (Z\geq k)=\alpha } ,则 π ( μ 0 ) = α {\displaystyle \pi (\mu _{0})=\alpha } 。
解决方案
证明。 假设 P ( Z ≥ k ) = α {\displaystyle \mathbb {P} (Z\geq k)=\alpha } 。 那么, π ( μ 0 ) = P ( Z ≥ k + 0 ) = P ( Z ≥ k ) = α {\displaystyle \pi (\mu _{0})=\mathbb {P} (Z\geq k+0)=\mathbb {P} (Z\geq k)=\alpha } 。
◻ {\displaystyle \Box }
理想情况下,我们希望将 α ( θ ) {\displaystyle \alpha (\theta )} 和 β ( θ ) {\displaystyle \beta (\theta )} 都降到任意小。但这通常是不可能的。为了理解这一点,我们可以考虑以下极端例子。
将拒绝域 R {\displaystyle R} 设置为 S = { x } {\displaystyle S=\{\mathbf {x} \}} ,即所有可能的随机样本观测值的集合。那么,对于每个 θ ∈ Θ {\displaystyle \theta \in \Theta } ,都有 π ( θ ) = 1 {\displaystyle \pi (\theta )=1} 。由此,当然我们有 β ( θ ) = 0 {\displaystyle \beta (\theta )=0} ,这是很好的。但严重的问题是,由于盲目拒绝, α ( θ ) = 1 {\displaystyle \alpha (\theta )=1} 。
另一个极端情况是将拒绝域 R {\displaystyle R} 设置为空集 ∅ {\displaystyle \varnothing } 。那么,对于每个 θ ∈ Θ {\displaystyle \theta \in \Theta } ,都有 π ( θ ) = 0 {\displaystyle \pi (\theta )=0} 。由此,我们有 α ( θ ) = 0 {\displaystyle \alpha (\theta )=0} ,这是很好的。但是,再次,严重的问题是,由于盲目接受, β ( θ ) = 1 {\displaystyle \beta (\theta )=1} 。
我们可以观察到,为了使 α ( θ ) {\displaystyle \alpha (\theta )} ( β ( θ ) {\displaystyle \beta (\theta )} )非常小,不可避免地, β ( θ ) {\displaystyle \beta (\theta )} ( α ( θ ) {\displaystyle \alpha (\theta )} )将随之增加,这是因为“接受”(拒绝)了“太多”。因此,我们只能尝试最小化犯一种类型错误的概率,同时将犯另一种类型错误的概率控制 在一定范围内。
现在,我们感兴趣的是了解应该控制哪种类型的错误。为了激发这种选择,我们可以再次考虑无罪推定法律原则的类比。在这种情况下,I 类错误意味着将无辜者判为有罪,而 II 类错误意味着赦免有罪者。然后,正如 布莱克斯通比率 所建议的那样,I 类错误比 II 类错误更严重,也更重要。这促使我们控制 I 类错误的概率,即 α ( θ ) {\displaystyle \alpha (\theta )} ,在指定的小值 α ∗ {\displaystyle \alpha ^{*}} 处,以便我们可以控制犯这种更严重错误的概率。在那之后,我们考虑“在该水平上控制 I 类错误概率”的检验,其中具有最小 β ( θ ) {\displaystyle \beta (\theta )} 的检验是“最佳”检验(从犯错概率的角度来看)。
为了更精确地描述“在该水平上控制 I 类错误概率”,让我们定义以下术语。
因此,根据这个定义,将 I 类错误概率控制在特定水平 α {\displaystyle \alpha } 意味着检验的功效不应超过 α {\displaystyle \alpha } ,即 sup θ ∈ Θ 0 π ( θ ) ≤ α {\displaystyle \sup _{\theta \in \Theta _{0}}\pi (\theta )\leq \alpha } (在其他一些地方,这种检验被称为 水平 α {\displaystyle \alpha } 检验 。)
例: 考虑正态分布 N ( μ , 1 ) {\displaystyle {\mathcal {N}}(\mu ,1)} (参数空间为: Θ = { μ : μ = 20 or 21 } {\displaystyle \Theta =\{\mu :\mu =20{\text{ or }}21\}} ),以及假设 H 0 : μ = 20 vs. H 1 : μ = 21 {\displaystyle H_{0}:\mu =20\quad {\text{vs.}}\quad H_{1}:\mu =21} 。令 X 1 , … , X 10 {\displaystyle X_{1},\dotsc ,X_{10}} 为来自正态分布 N ( μ , 1 ) {\displaystyle {\mathcal {N}}(\mu ,1)} 的随机样本,相应的实现值为 x 1 , … , x 10 {\displaystyle x_{1},\dotsc ,x_{10}} 。假设拒绝域为 { ( x 1 , … , x 10 ) : x ¯ ≥ k } {\displaystyle \{(x_{1},\dotsc ,x_{10}):{\overline {x}}\geq k\}} .
(a) 求 k {\displaystyle k} 使得检验的显著性水平为 α = 0.05 {\displaystyle \alpha =0.05} .
(b) 计算第二类错误概率 β {\displaystyle \beta } 。要使第二类错误概率 β ≤ 0.05 {\displaystyle \beta \leq 0.05} ,最小样本量是多少(使用相同的拒绝域)?
解决方案 .
(a) 为了使显著性水平为0.05,我们需要满足 sup μ ∈ Θ 0 π ( μ ) = 0.05. {\displaystyle \sup _{\mu \in \Theta _{0}}\pi (\mu )=0.05.} 但 Θ 0 = { 20 } {\displaystyle \Theta _{0}=\{20\}} 。因此,这意味着 0.05 = π ( 20 ) = P μ = 20 ( X ¯ ≥ k ) = P ( X ¯ − 20 1 / 10 ≥ k − 20 1 / 10 ) = P ( Z ≥ 10 ( k − 20 ) ) {\displaystyle 0.05=\pi (20)=\mathbb {P} _{\mu =20}({\overline {X}}\geq k)=\mathbb {P} \left({\frac {{\overline {X}}-20}{1/{\sqrt {10}}}}\geq {\frac {k-20}{1/{\sqrt {10}}}}\right)=\mathbb {P} (Z\geq {\sqrt {10}}(k-20))} 其中 Z ∼ N ( 0 , 1 ) {\displaystyle Z\sim {\mathcal {N}}(0,1)} 。然后我们有 10 ( k − 20 ) = z 0.05 ≈ 1.64 ⟹ k ≈ 20.51861. {\displaystyle {\sqrt {10}}(k-20)=z_{0.05}\approx 1.64\implies k\approx 20.51861.}
(b) II 类错误概率为 β ≈ 1 − P μ = 21 ( X ¯ ≥ 20.51861 ) = 1 − P ( X ¯ − 21 1 / 10 ≥ 20.51861 − 21 1 / 10 ) ≈ 1 − P ( Z ≥ − 1.522 ) = P ( Z < − 1.522 ) ≈ 0.06426. {\displaystyle \beta \approx 1-\mathbb {P} _{\mu =21}({\overline {X}}\geq 20.51861)=1-\mathbb {P} \left({\frac {{\overline {X}}-21}{1/{\sqrt {10}}}}\geq {\frac {20.51861-21}{1/{\sqrt {10}}}}\right)\approx 1-\mathbb {P} (Z\geq -1.522)=\mathbb {P} (Z<-1.522)\approx 0.06426.} ( Z ∼ N ( 0 , 1 ) {\displaystyle Z\sim {\mathcal {N}}(0,1)} ) 样本量为 n {\displaystyle n} 时,II 类错误概率为 β ≈ P ( Z < n ( 20.51861 − 21 ) ) {\displaystyle \beta \approx \mathbb {P} \left(Z<{\sqrt {n}}(20.51861-21)\right)} 当样本量 n {\displaystyle n} 增加时, n ( 20.51861 − 21 ) {\displaystyle {\sqrt {n}}(20.51861-21)} 将变得更负,因此 II 类错误概率会降低。因此, P ( Z < n ∗ ( 20.51861 − 21 ) ≤ 0.05 ⟹ n ( 20.51861 − 21 ) ≥ − 1.64 ⟹ n ≥ 11.603. {\displaystyle \mathbb {P} (Z<{\sqrt {n^{*}}}(20.51861-21)\leq 0.05\implies {\sqrt {n}}(20.51861-21)\geq -1.64\implies n\geq 11.603.} 因此,最小样本量为 12。
练习。 当样本量为 12 时(拒绝域保持不变),计算 I 类错误概率和 II 类错误概率。
解决方案
II 类错误概率为 P ( Z < 12 ( 20.51861 − 21 ) ) ≈ P ( Z < − 1.668 ) ≈ 0.04746. {\displaystyle \mathbb {P} (Z<{\sqrt {12}}(20.51861-21))\approx \mathbb {P} (Z<-1.668)\approx 0.04746.} I 类错误概率为 P ( Z ≥ 12 ( 20.51861 − 20 ) ) ≈ P ( Z ≥ 1.797 ) ≈ 0.0359. {\displaystyle \mathbb {P} (Z\geq {\sqrt {12}}(20.51861-20))\approx \mathbb {P} (Z\geq 1.797)\approx 0.0359.} 因此,在相同拒绝域和不同样本量的情况下,检验的显著性水平(在本例中为 I 类错误概率)发生了变化。
到目前为止,我们一直专注于使用 拒绝域 来进行假设检验。但这并不是唯一的方法。另外,我们可以使用 p {\displaystyle p} -值。
下面的定理允许我们使用 p {\displaystyle p} -值进行假设检验。
Proof. (Partial) We can prove "if" and "only if" directions at once. Let us first consider the case 1 in the definition of p {\displaystyle p} -value. By definitions, p {\displaystyle p} -value is sup θ ∈ Θ 0 P θ ( T ( X ) ≤ T ∗ ( x ) ) {\displaystyle \sup _{\theta \in \Theta _{0}}\mathbb {P} _{\theta }(T(\mathbf {X} )\leq T^{*}(\mathbf {x} ))} and α = sup θ ∈ Θ 0 π ( θ ) = sup θ ∈ Θ 0 P θ ( T ( X ) ≤ T ∗ ( x ) ) {\displaystyle \alpha =\sup _{\theta \in \Theta _{0}}\pi (\theta )=\sup _{\theta \in \Theta _{0}}\mathbb {P} _{\theta }(T(\mathbf {X} )\leq T^{*}(\mathbf {x} ))} (Define T ∗ ( X ) {\displaystyle T^{*}(\mathbf {X} )} such that T ( X ) ≤ T ∗ ( x ) ⟺ ( X 1 , … , X n ) ∈ R {\displaystyle T(\mathbf {X} )\leq T^{*}(\mathbf {x} )\iff (X_{1},\dotsc ,X_{n})\in R} .). Then, we have p -value ≤ α ⟺ sup θ ∈ Θ 0 P θ ( T ( X ) ≤ T ( x ) ) ≤ sup θ ∈ Θ 0 P θ ( T ( X ) ≤ T ∗ ( x ) ) ⟺ T ( x ) ≤ T ∗ ( x ) ( by some omitted arguments and the monotonicity of cdf ) ⟺ ( x 1 , … , x n ) ∈ { ( y 1 , … , y n ) : T ( y 1 , … , y n ) ≤ T ∗ ( x ) } ( x 1 , … , x n are realizations of X 1 , … , X n respectively ) ⟺ ( x 1 , … , x n ) ∈ R ( defined above ) ⟺ H 0 is rejected at significance level α . ( the test with power function π ( θ ) is size α test ) {\displaystyle {\begin{aligned}p{\text{-value}}\leq \alpha &\iff \sup _{\theta \in \Theta _{0}}\mathbb {P} _{\theta }(T(\mathbf {X} )\leq T(\mathbf {x} ))\leq \sup _{\theta \in \Theta _{0}}\mathbb {P} _{\theta }(T(\mathbf {X} )\leq T^{*}(\mathbf {x} ))\\&\iff T(\mathbf {x} )\leq T^{*}(\mathbf {x} )&({\text{by some omitted arguments and the monotonicity of cdf}})\\&\iff (x_{1},\dotsc ,x_{n})\in \{(y_{1},\dotsc ,y_{n}):T(y_{1},\dotsc ,y_{n})\leq T^{*}(\mathbf {x} )\}&(x_{1},\dotsc ,x_{n}{\text{ are realizations of }}X_{1},\dotsc ,X_{n}{\text{ respectively}})\\&\iff (x_{1},\dotsc ,x_{n})\in R&({\text{defined above}})\\&\iff H_{0}{\text{ is rejected at significance level }}\alpha .&({\text{the test with power function }}\pi (\theta ){\text{ is size }}\alpha {\text{ test}})\end{aligned}}} For other cases, the idea is similar (just the directions of inequalities for T {\displaystyle T} are different).
◻ {\displaystyle \Box }
示例。 回想之前示例的设置:考虑正态分布 N ( μ , 1 ) {\displaystyle {\mathcal {N}}(\mu ,1)} ( μ {\displaystyle \mu } 的参数空间为: Θ = { 20 , 21 } {\displaystyle \Theta =\{20,21\}} ),以及假设 H 0 : μ = 20 vs. H 1 : μ = 21 {\displaystyle H_{0}:\mu =20\quad {\text{vs.}}\quad H_{1}:\mu =21} 令 X 1 , … , X 10 {\displaystyle X_{1},\dotsc ,X_{10}} 是来自正态分布 N ( μ , 1 ) {\displaystyle {\mathcal {N}}(\mu ,1)} 的随机样本,对应的实现为 x 1 , … , x 10 {\displaystyle x_{1},\dotsc ,x_{10}} .
在显著性水平 α = 0.05 {\displaystyle \alpha =0.05} 下,我们已经确定拒绝域为 R = { ( y 1 , … , y 10 ) : y ¯ ≥ 20.51861 } {\displaystyle R=\{(y_{1},\dotsc ,y_{10}):{\overline {y}}\geq 20.51861\}} 。假设观察到 x ¯ = 20.5 {\displaystyle {\overline {x}}=20.5} .
(a) 使用拒绝域来确定我们是否应该拒绝 H 0 {\displaystyle H_{0}} 。
(b) 使用 p {\displaystyle p} 值来确定我们是否应该拒绝 H 0 {\displaystyle H_{0}} 。
解决方案 .
(a) 由于 x ¯ = 20.5 < 20.51861 {\displaystyle {\overline {x}}=20.5<20.51861} ,我们有 ( x 1 , … , x 10 ) ∈ R c {\displaystyle (x_{1},\dotsc ,x_{10})\in R^{c}} 。因此,我们不应该拒绝 H 0 {\displaystyle H_{0}} 。
(b) 由于检验是右尾检验, p {\displaystyle p} -值是 sup μ ∈ { 20 } P μ ( X ¯ ≥ x ¯ ) = P μ = 20 ( X ¯ ≥ 20.5 ) = P ( X ¯ − 20 1 / 10 ≥ 20.5 − 20 1 / 10 ) ≈ P ( Z ≥ 1.581 ) ≈ 0.05705 > α = 0.05 {\displaystyle \sup _{\mu \in \{20\}}\mathbb {P} _{\mu }({\overline {X}}\geq {\overline {x}})=\mathbb {P} _{\mu =20}({\overline {X}}\geq 20.5)=\mathbb {P} \left({\frac {{\overline {X}}-20}{1/{\sqrt {10}}}}\geq {\frac {20.5-20}{1/{\sqrt {10}}}}\right)\approx \mathbb {P} (Z\geq 1.581)\approx 0.05705>\alpha =0.05} ,其中 Z ∼ N ( 0 , 1 ) {\displaystyle Z\sim {\mathcal {N}}(0,1)} 。因此, H 0 {\displaystyle H_{0}} 不应该被拒绝。
练习。
在讨论了一些基本概念和术语之后,我们现在来研究一些评估假设检验好坏的方法。正如我们之前提到的,我们希望犯 I 类错误和 II 类错误的概率都很小,但我们已经提到,通常不可能使这两个概率都任意小。因此,我们建议控制 I 类错误,使用检验的规模,并且“最佳”检验应该是控制 I 类错误后,具有最小犯 II 类错误概率的检验。
这些想法导致了以下定义。
使用这个定义,与其说“最佳”检验(具有最小 II 类错误概率的检验),不如说“具有最大功效的检验”,换句话说,就是“最强大的检验”。
构建假设检验的方法很多,但当然并非所有方法都是好的(即“强大”的)。在下文中,我们将提供一些构建假设检验的常用方法。特别是,以下引理对于构建大小为 α {\displaystyle \alpha } 的 MP 检验非常有用。
引理。 (奈曼-皮尔逊引理)令 X 1 , … , X n {\displaystyle X_{1},\dotsc ,X_{n}} 是来自具有概率密度函数或概率质量函数 f ( x ; θ ) {\displaystyle f(x;\theta )} ( θ {\displaystyle \theta } 可以是一个参数向量,参数空间为 Θ = { θ 0 , θ 1 } {\displaystyle \Theta =\{\theta _{0},\theta _{1}\}} )的随机样本。令 L ( ⋅ ) {\displaystyle {\mathcal {L}}(\cdot )} 为似然函数。则检验 φ {\displaystyle \varphi } 具有拒绝域 R = { ( x 1 , … , x n ) : L ( θ 0 ; x ) L ( θ 1 ; x ) ≤ k } {\displaystyle R=\left\{(x_{1},\dotsc ,x_{n}):{\frac {{\mathcal {L}}(\theta _{0};\mathbf {x} )}{{\mathcal {L}}(\theta _{1};\mathbf {x} )}}\leq k\right\}} 和大小 α {\displaystyle \alpha } 是用于检验 H 0 : θ = θ 0 vs. H 1 : θ = θ 1 {\displaystyle H_{0}:\theta =\theta _{0}\quad {\text{vs.}}\quad H_{1}:\theta =\theta _{1}} 的最优检验,其中 k {\displaystyle k} 是由大小 α {\displaystyle \alpha } 决定的值。
证明。 让我们首先考虑基础分布是连续的情况。 假设 φ {\displaystyle \varphi } 的大小为 α {\displaystyle \alpha } ,作为 UMP 检验的“大小”要求立即得到满足。因此,只需证明 φ {\displaystyle \varphi } 满足作为 MP 检验的“UMP”要求。
请注意,在这种情况下,“ Θ 1 {\displaystyle \Theta _{1}} ” 只是 { θ 1 } {\displaystyle \{\theta _{1}\}} 。因此,对于每个具有拒绝区域 R ∗ ≠ R {\displaystyle R^{*}\neq R} 且 π ψ ( θ 0 ) ≤ α {\displaystyle {\color {purple}\pi _{\psi }(\theta _{0})\leq \alpha }} 的检验 ψ {\displaystyle \psi } ,我们将证明 π φ ( θ 1 ) ≥ π ψ ( θ 1 ) {\displaystyle \pi _{\varphi }(\theta _{1})\geq \pi _{\psi }(\theta _{1})} 。
Since π φ ( θ 1 ) − π ψ ( θ 1 ) = P θ 1 ( ( X 1 , … , X n ) ∈ R ) − P θ 1 ( ( X 1 , … , X n ) ∈ R ∗ ) = ∫ ⋯ ∫ R L ( θ 1 ; x ) d x n ⋯ d x 1 − ∫ ⋯ ∫ R ∗ L ( θ 1 ; x ) d x n ⋯ d x 1 = ∫ ⋯ ∫ R L ( θ 1 ; x ) d x n ⋯ d x 1 − ∫ ⋯ ∫ R ∩ R ∗ L ( θ 1 ; x ) d x n ⋯ d x 1 − ( ∫ ⋯ ∫ R ∗ L ( θ 1 ; x ) d x n ⋯ d x 1 − ∫ ⋯ ∫ R ∩ R ∗ L ( θ 1 ; x ) d x n ⋯ d x 1 ) = ∫ ⋯ ∫ R ∖ R ∗ L ( θ 1 ; x ) d x n ⋯ d x 1 − ∫ ⋯ ∫ R ∗ ∖ R L ( θ 1 ; x ) d x n ⋯ d x 1 ≥ 1 k ∫ ⋯ ∫ R ∖ R ∗ L ( θ 0 ; x ) d x n ⋯ d x 1 − 1 k ∫ ⋯ ∫ R ∗ ∖ R L ( θ 0 ; x ) d x n ⋯ d x 1 ( In R , L ( θ 1 ; x ) ≥ 1 k L ( θ 0 ; x ) . In R c , L ( θ 1 ; x ) < 1 k L ( θ 0 ; x ) ⟺ − L ( θ 1 ; x ) > − 1 k L ( θ 0 ; x ) ) = 1 k ∫ ⋯ ∫ R ∖ R ∗ L ( θ 0 ; x ) d x n ⋯ d x 1 + 1 k ∫ ⋯ ∫ R ∩ R ∗ L ( θ 0 ; x ) d x n ⋯ d x 1 − ( 1 k ∫ ⋯ ∫ R ∗ ∖ R L ( θ 0 ; x ) d x n ⋯ d x 1 + 1 k ∫ ⋯ ∫ R ∩ R ∗ L ( θ 0 ; x ) d x n ⋯ d x 1 ) = 1 k ∫ ⋯ ∫ R L ( θ 0 ; x ) d x n ⋯ d x 1 − 1 k ∫ ⋯ ∫ R ∗ L ( θ 0 ; x ) d x n ⋯ d x 1 = 1 k ( P θ 0 ( ( X 1 , … , X n ) ∈ R ) ⏟ = α − P θ 0 ( ( X 1 , … , X n ) ∈ R ∗ ) ⏟ ≤ α ) ≥ 1 k ( α − α ) = 0 , {\displaystyle {\begin{aligned}\pi _{\varphi }(\theta _{1})-\pi _{\psi }(\theta _{1})&=\mathbb {P} _{\theta _{1}}((X_{1},\dotsc ,X_{n})\in R)-\mathbb {P} _{\theta _{1}}((X_{1},\dotsc ,X_{n})\in R^{*})\\&=\int \dotsi \int _{R}^{}{\mathcal {L}}(\theta _{1};\mathbf {x} )\,dx_{n}\cdots \,dx_{1}-\int \dotsi \int _{R^{*}}^{}{\mathcal {L}}(\theta _{1};\mathbf {x} )\,dx_{n}\cdots \,dx_{1}\\&={\color {blue}\int \dotsi \int _{R}^{}{\mathcal {L}}(\theta _{1};\mathbf {x} )\,dx_{n}\cdots \,dx_{1}-\int \dotsi \int _{R\cap R^{*}}^{}{\mathcal {L}}(\theta _{1};\mathbf {x} )\,dx_{n}\cdots \,dx_{1}}-\left({\color {red}\int \dotsi \int _{R^{*}}^{}{\mathcal {L}}(\theta _{1};\mathbf {x} )\,dx_{n}\cdots \,dx_{1}-\int \dotsi \int _{R\cap R^{*}}^{}{\mathcal {L}}(\theta _{1};\mathbf {x} )\,dx_{n}\cdots \,dx_{1}}\right)\\&={\color {blue}\int \dotsi \int _{R\setminus R^{*}}^{}{\mathcal {L}}(\theta _{1};\mathbf {x} )\,dx_{n}\cdots \,dx_{1}}-{\color {red}\int \dotsi \int _{R^{*}\setminus R}^{}{\mathcal {L}}(\theta _{1};\mathbf {x} )\,dx_{n}\cdots \,dx_{1}}\\&\geq {\color {blue}{\frac {1}{k}}}\int \dotsi \int _{R\setminus R^{*}}^{}{\color {blue}{\mathcal {L}}(\theta _{0};\mathbf {x} )}\,dx_{n}\cdots \,dx_{1}-{\color {red}{\frac {1}{k}}}\int \dotsi \int _{R^{*}\setminus R}^{}{\color {red}{\mathcal {L}}(\theta _{0};\mathbf {x} )}\,dx_{n}\cdots \,dx_{1}\qquad ({\text{In }}R,{\color {blue}{\mathcal {L}}(\theta _{1};\mathbf {x} )\geq {\frac {1}{k}}{\mathcal {L}}(\theta _{0};\mathbf {x} )}.{\text{ In }}R^{c},{\mathcal {L}}(\theta _{1};\mathbf {x} )<{\frac {1}{k}}{\mathcal {L}}(\theta _{0};\mathbf {x} )\iff {\color {red}-{\mathcal {L}}(\theta _{1};\mathbf {x} )>-{\frac {1}{k}}{\mathcal {L}}(\theta _{0};\mathbf {x} )})\\&={\frac {1}{k}}\int \dotsi \int _{R\setminus R^{*}}^{}{\mathcal {L}}(\theta _{0};\mathbf {x} )\,dx_{n}\cdots \,dx_{1}+{\frac {1}{k}}\int \dotsi \int _{R\cap R^{*}}^{}{\mathcal {L}}(\theta _{0};\mathbf {x} )\,dx_{n}\cdots \,dx_{1}-\left({\frac {1}{k}}\int \dotsi \int _{R^{*}\setminus R}^{}{\mathcal {L}}(\theta _{0};\mathbf {x} )\,dx_{n}\cdots \,dx_{1}+{\frac {1}{k}}\int \dotsi \int _{R\cap R^{*}}^{}{\mathcal {L}}(\theta _{0};\mathbf {x} )\,dx_{n}\cdots \,dx_{1}\right)\\&={\frac {1}{k}}\int \dotsi \int _{R}^{}{\mathcal {L}}(\theta _{0};\mathbf {x} )\,dx_{n}\cdots \,dx_{1}-{\frac {1}{k}}\int \dotsi \int _{R^{*}}^{}{\mathcal {L}}(\theta _{0};\mathbf {x} )\,dx_{n}\cdots \,dx_{1}\\&={\frac {1}{k}}{\bigg (}{\color {brown}\underbrace {\mathbb {P} _{\theta _{0}}((X_{1},\dotsc ,X_{n})\in R)} _{=\alpha }}-{\color {purple}\underbrace {\mathbb {P} _{\theta _{0}}((X_{1},\dotsc ,X_{n})\in R^{*})} _{\leq \alpha }}{\bigg )}\\&\geq {\frac {1}{k}}(\alpha -\alpha )=0,\end{aligned}}} we have π ϕ ( θ 1 ) ≥ π ψ ( θ 1 ) {\displaystyle \pi _{\phi }(\theta _{1})\geq \pi _{\psi }(\theta _{1})} as desired.
对于底层分布为离散的情况,证明非常类似(只需将积分替换为求和),因此省略。
◻ {\displaystyle \Box }
即使奈曼-皮尔逊引理中涉及的假设很简单,在一些条件下,我们可以使用该引理来构造一个UMP检验,以检验复合 零假设与复合 备择假设。具体细节如下:为了检验 H 0 : θ ≤ θ 0 vs. H 1 : θ > θ 0 {\displaystyle H_{0}:\theta \leq \theta _{0}\quad {\text{vs.}}\quad H_{1}:\theta >\theta _{0}}
找到一个MP检验 φ {\displaystyle \varphi } ,其大小为 α {\displaystyle \alpha } ,用于检验 H 0 : θ = θ 0 vs. H 1 : θ = θ 1 > θ 0 {\displaystyle H_{0}:\theta =\theta _{0}\quad {\text{vs.}}\quad H_{1}:\theta =\theta _{1}>\theta _{0}} ,使用奈曼-皮尔逊引理,其中 θ 1 {\displaystyle \theta _{1}} 是任意值,使得 θ 1 > θ 0 {\displaystyle \theta _{1}>\theta _{0}} 。
如果拒绝域 R {\displaystyle R} 不依赖于 θ 1 {\displaystyle \theta _{1}} ,那么检验 φ {\displaystyle \varphi } 对每个 θ ∈ Θ 1 = { ϑ : ϑ > θ 0 } {\displaystyle \theta \in \Theta _{1}=\{\vartheta :\vartheta >\theta _{0}\}} 都有最大的功效。因此,检验 φ {\displaystyle \varphi } 是一个大小为 α {\displaystyle \alpha } 的UMP检验,用于检验 H 0 : θ = θ 0 vs. H 1 : θ > θ 0 {\displaystyle H_{0}:\theta =\theta _{0}\quad {\text{vs.}}\quad H_{1}:\theta >\theta _{0}}
如果我们能进一步证明 sup θ ≤ θ 0 π φ ( θ ) = α = π φ ( θ 0 ) {\displaystyle \sup _{\theta \leq \theta _{0}}\pi _{\varphi }(\theta )=\alpha =\pi _{\varphi }(\theta _{0})} ,这意味着测试 φ {\displaystyle \varphi } 的大小仍然是 α {\displaystyle \alpha } ,即使零假设被更改为 H 0 : θ ≤ θ {\displaystyle H_{0}:\theta \leq \theta } 。因此,在将 H 0 : θ = θ 0 {\displaystyle H_{0}:\theta =\theta _{0}} 更改为 H 0 : θ ≤ θ 0 {\displaystyle H_{0}:\theta \leq \theta _{0}} 并且不改变 H 1 {\displaystyle H_{1}} (同时也调整了测试 φ {\displaystyle \varphi } 的参数空间),测试 φ {\displaystyle \varphi } 仍然满足“MP”要求(因为没有改变 H 1 {\displaystyle H_{1}} ,因此步骤 2 中的结果仍然适用),并且测试 φ {\displaystyle \varphi } 将满足“大小”要求(因为以这种方式改变了 H 0 {\displaystyle H_{0}} )。因此,测试 φ {\displaystyle \varphi } 是一个大小为 α {\displaystyle \alpha } 的 UMP 测试,用于测试 H 0 : θ ≤ θ 0 vs. H 1 : θ > θ 0 {\displaystyle H_{0}:\theta \leq \theta _{0}\quad {\text{vs.}}\quad H_{1}:\theta >\theta _{0}} .
对于测试 H 0 : θ ≥ θ 0 vs. H 1 : θ < θ 0 {\displaystyle H_{0}:\theta \geq \theta _{0}\quad {\text{vs.}}\quad H_{1}:\theta <\theta _{0}} ,步骤类似。但一般来说,对于测试 H 0 : θ = θ 0 vs. H 1 : θ ≠ θ 0 {\displaystyle H_{0}:\theta =\theta _{0}\quad {\text{vs.}}\quad H_{1}:\theta \neq \theta _{0}} ,不存在UMP检验。
当然,当步骤 3 中的条件成立而步骤 2 中的条件不成立时,步骤 1 中的检验 φ {\displaystyle \varphi } 是一个大小为 α {\displaystyle \alpha } 的UMP检验,用于测试 H 0 : θ ≤ θ 0 vs. H 1 : θ = θ 1 {\displaystyle H_{0}:\theta \leq \theta _{0}\quad {\text{vs.}}\quad H_{1}:\theta =\theta _{1}} ,其中 θ 1 {\displaystyle \theta _{1}} 是一个常数(大于 θ 0 {\displaystyle \theta _{0}} ,否则 H 1 {\displaystyle H_{1}} 和 H 0 {\displaystyle H_{0}} 不相交)。但是,假设通常不采用这种形式。
示例。 令 X 1 , … , X 10 {\displaystyle X_{1},\dotsc ,X_{10}} 是从正态分布 N ( μ , 1 ) {\displaystyle {\mathcal {N}}(\mu ,1)} 中抽取的随机样本。
(a) 构造一个大小为 0.05 的MP检验 φ {\displaystyle \varphi } ,用于测试 H 0 : μ = 20 vs. H 1 : μ = 21 {\displaystyle H_{0}:\mu =20\quad {\text{vs.}}\quad H_{1}:\mu =21} 。
(b) 因此,证明检验 φ {\displaystyle \varphi } 也是一个大小为 0.05 的 UMP 检验,用于检验 H 0 : μ = 20 vs. H 1 : μ > 20 {\displaystyle H_{0}:\mu =20\quad {\text{vs.}}\quad H_{1}:\mu >20} 。
(c) 因此,证明检验 φ {\displaystyle \varphi } 也是一个大小为 0.05 的 UMP 检验,用于检验 H 0 : μ ≤ 20 vs. H 1 : μ > 20 {\displaystyle H_{0}:\mu \leq 20\quad {\text{vs.}}\quad H_{1}:\mu >20} 。
Solution . (a) We can use the Neyman-Pearson lemma. First, consider the likelihood ratio L ( 20 ) L ( 21 ) = ( 1 2 π ( 1 ) ) 10 ∏ i = 1 10 exp ( − ( x i − 20 ) 2 2 ) ( 1 2 π ( 1 ) ) 10 ∏ i = 1 10 exp ( − ( x i − 21 ) 2 2 ) = exp ( − 1 2 ∑ i = 1 10 [ ( x i − 20 ) 2 − ( x i − 21 ) 2 ] ) = exp ( − 1 2 ∑ i = 1 10 [ x i 2 − 40 x i + 400 − x i 2 + 42 x i − 441 ] ) = exp ( − 1 2 ∑ i = 1 10 [ 2 x i − 41 ] ) = exp ( 41 2 − ∑ i = 1 10 x i ) . {\displaystyle {\frac {{\mathcal {L}}(20)}{{\mathcal {L}}(21)}}={\frac {{\cancel {\left({\frac {1}{\sqrt {2\pi (1)}}}\right)^{10}}}\prod _{i=1}^{10}\exp \left(-{\frac {(x_{i}-20)^{2}}{2}}\right)}{{\cancel {\left({\frac {1}{\sqrt {2\pi (1)}}}\right)^{10}}}\prod _{i=1}^{10}\exp \left(-{\frac {(x_{i}-21)^{2}}{2}}\right)}}=\exp \left(-{\frac {1}{2}}\sum _{i=1}^{10}{\big [}(x_{i}-20)^{2}-(x_{i}-21)^{2}{\big ]}\right)=\exp \left(-{\frac {1}{2}}\sum _{i=1}^{10}{\big [}{\cancel {x_{i}^{2}}}-40x_{i}+400{\cancel {-x_{i}^{2}}}+42x_{i}-441{\big ]}\right)=\exp \left(-{\frac {1}{2}}\sum _{i=1}^{10}{\big [}2x_{i}-41{\big ]}\right)=\exp \left({\frac {41}{2}}-\sum _{i=1}^{10}x_{i}\right).} Now, we have L ( 20 ) L ( 21 ) ≤ k ′ ⟺ exp ( 41 2 − 10 x ¯ ) ≤ k ′ ⟺ − 10 x ¯ ≤ k ″ ⟺ x ¯ ≥ k {\displaystyle {\frac {{\mathcal {L}}(20)}{{\mathcal {L}}(21)}}\leq k'\iff \exp \left({\frac {41}{2}}-10{\overline {x}}\right)\leq k'\iff -10{\overline {x}}\leq k''\iff {\overline {x}}\geq k} where k , k ′ , k ″ {\displaystyle k,k',k''} are some constants. To find k {\displaystyle k} , consider the size 0.05: 0.05 = P μ = 20 ( X ¯ ≥ k ) = P μ = 20 ( X ¯ − 20 1 / 10 ≥ k − 20 1 / 10 ) = P ( Z ≥ 10 ( k − 20 ) ) . {\displaystyle 0.05=\mathbb {P} _{\mu =20}({\overline {X}}\geq k)=\mathbb {P} _{\mu =20}\left({\frac {{\overline {X}}-20}{1/{\sqrt {10}}}}\geq {\frac {k-20}{1/{\sqrt {10}}}}\right)=\mathbb {P} (Z\geq {\sqrt {10}}(k-20)).} ( Z ∼ N ( 0 , 1 ) {\displaystyle Z\sim {\mathcal {N}}(0,1)} ) Hence, we have 10 ( k − 20 ) ≈ 1.64 ⟹ k ≈ 20.51861 {\displaystyle {\sqrt {10}}(k-20)\approx 1.64\implies k\approx 20.51861} . Now, we can construct the rejection region: R = { ( x 1 , … , x n ) : x ¯ ≥ 20.51861 } , {\displaystyle R=\{(x_{1},\dotsc ,x_{n}):{\overline {x}}\geq 20.51861\},} and the test φ {\displaystyle \varphi } with the rejection region R {\displaystyle R} is a MP test with size 0.05 for testing H 0 : μ = 20 vs. μ = 21 {\displaystyle H_{0}:\mu =20\quad {\text{vs.}}\quad \mu =21} .
(b)
(c)
现在,让我们考虑另一个例子,其中基础分布是离散的。
例: 令 X {\displaystyle X} 为一个离散随机变量,其概率质量函数为 θ x 1 2 3 4 5 6 7 8 0 f ( x ; θ ) 0 0.02 0.02 0.02 0.02 0.02 0.02 0.88 1 f ( x ; θ ) 0.01 0.02 0.03 0.04 0.05 0 0.06 0.79 {\displaystyle {\begin{array}{c|ccccccccc}\theta &x&1&2&3&4&5&6&7&8\\\hline 0&f(x;\theta )&0&0.02&0.02&0.02&0.02&0.02&0.02&0.88\\1&f(x;\theta )&0.01&0.02&0.03&0.04&0.05&0&0.06&0.79\\\end{array}}} (注意每行值的总和均为 1。参数空间为 Θ = { 0 , 1 } {\displaystyle \Theta =\{0,1\}} 。)给定一个 单一观测值 x {\displaystyle x} ,构建一个大小为 0.1 的最优检验来检验 H 0 : θ = 0 vs. H 1 : θ = 1 {\displaystyle H_{0}:\theta =0\quad {\text{vs.}}\quad H_{1}:\theta =1} 。
Solution . We use the Neyman-Pearson lemma. First, we calculate the likelihood ratio f ( x ; 0 ) / f ( x ; 1 ) {\displaystyle f(x;0)/f(x;1)} for each value of x {\displaystyle x} : x 1 2 3 4 5 6 7 8 f ( x ; 0 ) f ( x ; 1 ) 0 1 0.667 0.5 0.4 undefined 0.333 1.114 {\displaystyle {\begin{array}{ccccccccc}x&1&2&3&4&5&6&7&8\\\hline {\frac {f(x;0)}{f(x;1)}}&0&1&0.667&0.5&0.4&{\text{undefined}}&0.333&1.114\end{array}}} For convenience, let us sort the likelihood ratios in ascending order (we put the undefined value at the last): x 1 7 5 4 3 2 8 6 f ( x ; 0 ) f ( x ; 1 ) 0 0.333 0.4 0.5 0.667 1 1.114 undefined {\displaystyle {\begin{array}{ccccccccc}x&1&7&5&4&3&2&8&6\\\hline {\frac {f(x;0)}{f(x;1)}}&0&0.333&0.4&0.5&0.667&1&1.114&{\text{undefined}}\end{array}}} By Neyman-Pearson lemma, the MP test with size 0.1 for testing H 0 : θ = 0 vs. H 1 : θ = 1 {\displaystyle H_{0}:\theta =0\quad {\text{vs.}}\quad H_{1}:\theta =1} is a test with size 0.1 and rejection region R = { x : f ( x ; 0 ) f ( x ; 1 ) ≤ k } . {\displaystyle R=\left\{x:{\frac {f(x;0)}{f(x;1)}}\leq k\right\}.} So, it remains to determine R {\displaystyle R} . Since the size is 0.1, we have 0.1 = α ( 0 ) = P θ = 0 ( X ∈ R ) . {\displaystyle 0.1=\alpha (0)=\mathbb {P} _{\theta =0}(X\in R).} Notice that P θ = 0 ( X = 1 ) + P θ = 0 ( X = 7 ) + P θ = 0 ( X = 5 ) + P θ = 0 ( X = 4 ) + P θ = 0 ( X = 3 ) + P θ = 0 ( X = 2 ) = 0 + 0.02 + 0.02 + 0.02 + 0.02 + 0.02 = 0.1. {\displaystyle \mathbb {P} _{\theta =0}(X=1)+\mathbb {P} _{\theta =0}(X=7)+\mathbb {P} _{\theta =0}(X=5)+\mathbb {P} _{\theta =0}(X=4)+\mathbb {P} _{\theta =0}(X=3)+\mathbb {P} _{\theta =0}(X=2)=0+0.02+0.02+0.02+0.02+0.02=0.1.} So, we can choose k ∈ [ 1 , 1.114 ) {\displaystyle k\in [1,1.114)} (approximately), so that rejection region is { x : f ( x ; 0 ) f ( x ; 1 ) ≤ k } = { 1 , 7 , 5 , 4 , 3 , 2 } . {\displaystyle \left\{x:{\frac {f(x;0)}{f(x;1)}}\leq k\right\}=\{1,7,5,4,3,2\}.}
练习: 计算上述检验的第二类错误概率。
解决方案
概率为 β ( 1 ) = P θ = 1 ( X ∈ R c ) = P θ = 1 ( X = 8 ) + P θ = 1 ( X = 6 ) = 0.79. {\displaystyle \beta (1)=\mathbb {P} _{\theta =1}(X\in R^{c})=\mathbb {P} _{\theta =1}(X=8)+\mathbb {P} _{\theta =1}(X=6)=0.79.} (注意尽管该检验是最优的,但这种情况下第二类错误概率仍然很大。)
使用 Neyman-Pearson 引理构建另一个大小为 0.05 的最优检验来检验 H 0 : θ = 0 vs. H 1 : θ = 1 {\displaystyle H_{0}:\theta =0\quad {\text{vs.}}\quad H_{1}:\theta =1} 。
之前,我们建议使用 Neyman-Pearson 引理来构建检验简单零假设与简单备择假设的最优检验。然而,当假设是复合的时候,我们可能无法使用 Neyman-Pearson 引理。因此,在接下来的内容中,我们将提供一个通用的方法来构建任何假设检验,不受限于简单假设。但我们应该注意到,构建的检验不一定是均匀最优检验。
我们已经提到,假设检验与置信区间之间存在相似之处。在本节中,我们将介绍一个定理,该定理建议如何从置信区间(或更一般地,置信 集 )构造假设检验,反之亦然。
定理。 对于每个 θ 0 ∈ Θ {\displaystyle \theta _{0}\in \Theta } ,令 R ( θ 0 ) {\displaystyle R(\theta _{0})} 为大小为 α {\displaystyle \alpha } 的检验 H 0 : θ = θ 0 vs. H 1 : θ ≠ θ 0 {\displaystyle H_{0}:\theta =\theta _{0}\quad {\text{vs.}}\quad H_{1}:\theta \neq \theta _{0}} 的拒绝域。另外,令 x 1 , … , x n {\displaystyle x_{1},\dotsc ,x_{n}} 为来自潜在分布的随机样本 X 1 , … , X n {\displaystyle X_{1},\dotsc ,X_{n}} 的对应实现。此外,令 x = ( x 1 , … , x n ) {\displaystyle \mathbf {x} =(x_{1},\dotsc ,x_{n})} 和 X = ( X 1 , … , X n ) {\displaystyle \mathbf {X} =(X_{1},\dotsc ,X_{n})} 。
定义一个集合 C ( x ) = { θ 0 : x ∈ R ( θ 0 ) c } . {\displaystyle C(\mathbf {x} )=\{\theta _{0}:\mathbf {x} \in R(\theta _{0})^{c}\}.} 那么,随机集合 C ( X ) {\displaystyle C(\mathbf {X} )} 是 1 − α {\displaystyle 1-\alpha } 置信集 θ 0 {\displaystyle \theta _{0}} 。
相反,设集合 C ∗ ( X ) {\displaystyle C^{*}(\mathbf {X} )} 是一个未知参数 θ {\displaystyle \theta } 的 1 − α {\displaystyle 1-\alpha } 置信集。对于每一个 θ 0 ∈ Θ {\displaystyle \theta _{0}\in \Theta } ,定义 R ( θ 0 ) = { x : θ 0 ∉ C ∗ ( x ) } . {\displaystyle R(\theta _{0})=\{\mathbf {x} :\theta _{0}\notin C^{*}(\mathbf {x} )\}.} 那么, R ( θ 0 ) {\displaystyle R(\theta _{0})} 是一个检验 H 0 : θ = θ 0 vs. H 1 : θ ≠ θ 0 {\displaystyle H_{0}:\theta =\theta _{0}\quad {\text{vs.}}\quad H_{1}:\theta \neq \theta _{0}} 的大小为 α {\displaystyle \alpha } 的拒绝域。
↑ 如果 Θ 0 {\displaystyle \Theta _{0}} 为空,则该假设毫无意义,所以我们对此情况不感兴趣。
↑ 因此,一个自然衡量假设检验“好坏”的指标是它的“误差大小”。我们将在本章后面讨论这些。
↑ 这是因为在" θ ∈ Θ 0 {\displaystyle \theta \in \Theta _{0}} "或" H 0 {\displaystyle H_{0}} (为真)"上进行条件化是没有意义的,因为它们不是随机的,因此概率为零或一。当概率为零时,“条件概率”没有定义。当概率为一时,在它上的条件化与不在它上的条件化相同。
↑ 即使对于 Θ 0 {\displaystyle \Theta _{0}} 中的大多数参数值,测试犯第一类错误的概率很低,如果对于 Θ 0 {\displaystyle \Theta _{0}} 中的某个特定参数值,该测试犯第一类错误的概率很高,那么直观地说,这意味着该测试 不能很好地控制 第一类错误,对吗?