跳转至内容

统计学/假设检验

来自维基教科书,开放世界中的开放书籍

在前面的章节中,我们讨论了两种用于估计未知参数的方法,即点估计区间估计。估计未知参数是统计推断中一个重要的领域,在本节中,我们将讨论另一个重要领域,即假设检验,它与决策有关。事实上,置信区间假设检验的概念密切相关,正如我们将演示的那样。

基本概念和术语

[编辑 | 编辑源代码]

在讨论如何进行假设检验以及评估假设检验的“好坏”之前,让我们首先介绍一些与假设检验相关的基本概念和术语。

定义。 (假设)一个(统计)假设是对总体参数的陈述。

有两个术语用来对假设进行分类

定义。 (简单和复合假设)如果一个假设完全指定了总体的分布(也就是说,该分布是完全已知的,没有任何未知参数参与),则它是简单假设,否则它是复合假设

有时,是否一个假设是简单还是复合并不立即清楚。为了更清楚地理解假设的分类,让我们考虑以下示例。

示例。 考虑一个参数为的分布,它在参数空间中取值。确定以下每个假设是简单还是复合。

(a) .

(b) 其中 是已知的。

(c) .

(d) 其中 是已知的。

(e) 其中 是已知的。

(f) 其中 的一个非空子集。[1]

解决方案.

  • (a) 和 (b) 是简单假设,因为它们都完全指定了分布。
  • (c)、(d) 和 (e) 是复合假设,因为参数 没有完全确定,那么分布也是如此。
  • (f) 可能是简单假设或复合假设,具体取决于 。如果 仅包含一个元素,那么它就是简单假设。否则,它是复合假设。

在假设检验中,我们考虑两个假设。

定义: (零假设和备择假设) 在假设检验中,被检验的假设是 零假设 (用 表示),另一个 互补 假设 (对 ) 是 备择假设 (用 表示)。

备注:

  • 的互补假设,是指如果 为真 (假),那么 为假 (真) (恰好 之一为真)。因此,我们通常说 被检验 对抗 (所以我们经常写 )。
  • 通常, 通常对应于 现状 (“无影响”),而 对应于一些有趣的 “研究发现” (因此, 有时也被称为 研究假设 )。
  • 由于 通常对应于现状,我们通常 假设 为真,除非有充分的证据反驳它。
  • 这在某种程度上类似于法律原则的无罪推定,该原则指出,任何被指控犯罪的人都被认为是无罪被假定为真),直到被证明有罪(有足够的证据反对)。

的一般形式是,其中,它是补集(相对于),即 是参数空间,包含的所有可能值)。选择的补集在中的原因是的补充假设,如上述定义所示。

备注:

  • 在一些书籍中,只需要 为参数空间 的不相交(非空)子集,并且没有必要
  • 但是,通常情况下,仍然假设恰好一个 为真,这意味着 不应该取值在集合 之外(否则, 都不为真)。
  • 因此,在这种情况下,我们实际上可以说参数空间确实是。在这个参数空间(因为 假设在这个并集取值),那么 的补集。
  • 或者,有些人可能认为参数空间与分布“相关联”,因此对于给定的分布,参数空间被固定为分布本身所建议的。所以,在这种情况下, 不是 的补集(相对于参数空间)。
  • 尽管对 的定义有所不同,但一个共同的特点是,我们假设 恰好 之一为真。

示例. 假设你的朋友给你一枚硬币让你抛,你不知道它是否是公平的。然而,由于这枚硬币是由你的朋友给你的,你相信这枚硬币是公平的,除非有充分的证据表明并非如此。在这个背景下,零假设和备择假设是什么(假设硬币永远不会立起来)?

解答. 令 为抛硬币后正面朝上的概率。零假设是 。备择假设是 .

Clipboard

练习. 假设我们在上面的问题中将“硬币”替换为“六面骰子”。零假设和备择假设是什么?(提示: 你可以令 分别表示“1”、“2”、“3”、“4”、“5”、“6” 在掷骰子后出现的概率)

解决方案

分别表示“1”、“2”、“3”、“4”、“5”、“6” 在掷骰子后出现的概率。零假设是 ,备择假设是 (事实上,当 中的一个不等于 时,它必然会导致至少另一个概率不同于 )。


我们已经提到,假设 之一为真。为了做出决定,我们需要 决定 哪个假设应该被认为是正确的。当然,正如你可能预料的那样,这个决定并不完美,我们的决定会有一些错误。因此,我们不能说我们“证明”一个特定的假设是正确的(也就是说,我们不能 确定 一个特定的假设是正确的)。尽管如此,当我们有 足够的证据 让我们做出这个决定(理想情况下,错误很小 [2])时,我们可以“认为”(或“接受”)一个特定的假设是正确的(但 不是 证明它是正确的)。

备注:

  • 从哲学角度来说,“不拒绝”与“接受”是不同的,因为“不拒绝”可能意味着我们实际上并不认为 是真的,只是没有足够的证据来拒绝,而不是意味着我们认为 是真的。另一方面,“接受”应该意味着我们认为 是真的。
  • 尽管如此,我们不会处理这些哲学问题,我们将假设只要没有足够的证据来拒绝(即,我们不拒绝),我们将像 为真一样行动,也就是说,仍然接受,即使我们可能实际上并不“相信”
  • 当然,在其他一些地方,由于这些哲学问题,避免使用“接受零假设”的说法。

现在,我们面临着两个问题。首先,我们应该考虑哪些证据?其次,“足够”是什么意思?对于第一个问题,一个自然的答案是,我们应该考虑观察到的样本,对吗?这是因为我们对总体进行假设,而样本是从总体中抽取的,因此与总体密切相关,这应该有助于我们做出决定。

为了回答第二个问题,我们需要假设检验的概念。特别是在假设检验中,我们将构建一个所谓的拒绝域临界域来帮助我们确定是否应该拒绝假设(即,认为 为假),因此(自然地)认为 为真(“接受”)(我们假设 中只有一个为真,因此当我们认为其中一个为假时,我们应该认为另一个为真)。特别地,当我们拒绝 时,我们将像 为真那样行动,或者接受 为真(因此也应该拒绝 ,因为 中只有一个为真)。

让我们正式定义以下与假设检验相关的术语。

定义. (假设检验)一个假设检验 是一个规则,它指定对于哪些观测样本值,我们(不拒绝并)接受 为真(因此拒绝 ),以及对于哪些观测样本值,我们拒绝 并接受.

备注:

  • 假设检验有时为了简洁起见简称为“检验”。我们有时也使用希腊字母"","",等等来表示检验。

定义。(拒绝域和接受域)设 是包含随机样本 所有可能观测值的集合,拒绝域(用 表示)是 的子集,其中拒绝 。拒绝域的补集(相对于集合 )()是 接受域(因此它是 的子集,其中接受 )。

备注:

  • 图形上,它看起来像
    S
*------------*
|///|........|
|///\........|
|////\.......| 
|/////\......|
*------------*

*--*
|//|: R
*--*

*--*
|..|: R^c
*--*

通常,我们使用 检验统计量(用于进行假设检验的统计量)来指定拒绝域。例如,如果随机样本是 且检验统计量是 ,则拒绝域可能是,例如,(其中 分别是 的观察值)。通过这种方式,我们可以直接构建假设检验:当 时,我们拒绝 并接受 。否则,如果 ,我们接受 。因此,一般来说,为了在假设检验中指定规则,我们只需要一个 拒绝域。之后,我们将应用该检验来检验 相对于 。关于以这种方式构建的假设检验,有一些相关的术语

定义。(左、右和双尾检验)令 为假设检验的观察检验统计量,且 为随机样本的实现。

  • 如果拒绝域的形式为 ,则该假设检验称为 左尾检验(或下尾检验)。
  • 如果拒绝域的形式为,那么假设检验称为右尾检验(或上尾检验)。
  • 如果拒绝域的形式为,那么假设检验称为双尾检验

备注:

  • 不等式符号可以是严格的,也就是说,上面的不等式符号可以替换为 "" 和 ""。
  • 我们使用“尾部”这个术语,因为拒绝域包括位于分布“极端部分”(即最左边(具有小值)或最右边(具有大值)部分)(称为尾部)的值。
  • 时,我们可以说双尾检验是等尾的。在这种情况下,我们也可以将拒绝域表示为
  • 我们有时也将上尾检验和下尾检验称为单边检验,双尾检验称为双边检验

示例。假设拒绝域为,并且观察到。我们应该接受哪个假设, 还是

解答。由于,我们应该(不拒绝并)接受

Clipboard

练习。这种假设检验是什么类型?

解决方案

右尾检验。


正如我们已经提到的,假设检验做出的决定不应该完美,并且会发生错误。事实上,当我们仔细思考时,实际上有两种类型的错误,如下所示

定义。 (I 类和 II 类错误)I 类错误 是在 时,拒绝 II 类错误 是在 时,接受

我们可以使用以下表格更清楚地说明这两种类型的错误。

I 类和 II 类错误
接受 拒绝
为真 正确决策 I 类错误
为假 II 类错误 正确决策

我们可以表示 。另外,假设拒绝域为 (即,用 "" 替换 "" 的拒绝域)。通常,当 "" 与 "" 结合在一起时,我们假设

接下来,我们针对犯第一类和第二类错误的 概率 做一些符号和表达式说明:(假设 是一个随机样本,)

  • 犯第一类错误的概率,记作 ,当 时,为
  • 犯第二类错误的概率,记作 ,当 时,为

备注:

  • 符号说明:在其他地方, 可能被表示为 ""、"" 或 ""。要注意,这些符号不应被理解为条件概率[3]。它们只是符号而已。 也是同理。
  • 只包含一个值时,我们将 I 类错误概率简单地表示为 。同样,当 只包含一个值时,我们将 II 类错误概率简单地表示为

请注意, 中有一个共同的表达式,即“”。事实上,我们也可以将此表达式写成 通过此表达式,我们可以观察到,它包含了所有关于错误概率的信息,这些错误概率来自于一个具有拒绝域 的假设检验。因此,我们将为它赋予一个特殊的名称。

定义。 (功效函数)令 为一个假设检验的拒绝域,并且 为一个随机样本。则,该假设检验的 功效函数 其中

备注:

  • ” 可以理解为希腊字母“p”。我们选择 而不是 ,因为“” 有时用于表示概率(质量或密度)函数。
  • 功效函数将是我们评估检验的优劣或比较两个不同检验的基础。

示例: 假设我们掷一枚(公平或不公平)硬币 5 次(假设硬币永远不会侧立),并且我们有以下假设: 其中 是掷硬币后正面朝上的概率。令 为 5 次掷硬币的随机样本,并且 是相应的实现。此外,随机样本的值为 1(如果出现正面),否则为 0。假设我们将在所有 5 次掷硬币中都出现正面时拒绝

(a) 确定拒绝区域

(b) 功率函数是什么 (用 表示)?

(c) 计算

解决方案.

(a) 拒绝区域

(b) 功率函数为

(c) 我们有 以及 。(注意,虽然 I 类错误的概率可能很低,但 II 类错误的概率可能很高。这是因为,直观地,拒绝 是“困难”的,因为要求很严格。所以,即使 是假的,它可能不被拒绝,从而导致 II 类错误。)

Clipboard

练习. 是否存在 ?如果存在,请计算它。

解决方案

存在,并且 (注意 是一个严格递增函数)。

您注意到这个假设检验的 II 类错误可能很大,因此您想修改检验以降低 II 类错误。

(a) 以上假设检验中 是什么?

(b) 假设拒绝域被修改为 。计算 。(提示:考虑二项分布。)

(c) 假设拒绝域被修改为 。计算

(d) 在哪种假设检验中被最小化:原始的、(b) 中的还是 (c) 中的?

解决方案

(a) 如果

(b) 在这种情况下,我们有 ,以及 .

(c) 在这种情况下,我们有 以及 .

(d) 在原始的假设检验中,,在 (b) 中的假设检验中,,在 (c) 中的假设检验中,。因此, 在 (b) 中的假设检验中被最小化。


示例。 假设 是来自正态分布 的随机样本,其中 已知。考虑以下假设: 其中 是一个常数。我们使用检验统计量 进行假设检验,当且仅当 时,我们拒绝

求功效函数

解决方案。 幂函数是 因此, 并且 (一些符号上的滥用),根据累积分布函数的定义。(事实上, 的严格递增函数。)

Clipboard

练习。 证明如果 ,则

解决方案

证明。 假设 。 那么,



理想情况下,我们希望将 都降到任意小。但这通常是不可能的。为了理解这一点,我们可以考虑以下极端例子。

  • 将拒绝域 设置为 ,即所有可能的随机样本观测值的集合。那么,对于每个 ,都有 。由此,当然我们有 ,这是很好的。但严重的问题是,由于盲目拒绝,
  • 另一个极端情况是将拒绝域 设置为空集 。那么,对于每个 ,都有 。由此,我们有 ,这是很好的。但是,再次,严重的问题是,由于盲目接受,

我们可以观察到,为了使 )非常小,不可避免地,)将随之增加,这是因为“接受”(拒绝)了“太多”。因此,我们只能尝试最小化犯一种类型错误的概率,同时将犯另一种类型错误的概率控制在一定范围内。

现在,我们感兴趣的是了解应该控制哪种类型的错误。为了激发这种选择,我们可以再次考虑无罪推定法律原则的类比。在这种情况下,I 类错误意味着将无辜者判为有罪,而 II 类错误意味着赦免有罪者。然后,正如 布莱克斯通比率 所建议的那样,I 类错误比 II 类错误更严重,也更重要。这促使我们控制 I 类错误的概率,即 ,在指定的小值 处,以便我们可以控制犯这种更严重错误的概率。在那之后,我们考虑“在该水平上控制 I 类错误概率”的检验,其中具有最小 的检验是“最佳”检验(从犯错概率的角度来看)。

为了更精确地描述“在该水平上控制 I 类错误概率”,让我们定义以下术语。

定义。(检验的功效)具有功效函数 的检验是一个 大小为 的检验,如果 ,其中

备注:

  • 上确界类似于最大值,在“良好”情况下(你可以假设这里的情况是“良好”的),上确界与最大值相同。因此,选择 上的上确界作为检验的大小意味着检验的大小给出其 I 类错误的最大概率(当 为真时拒绝 ),考虑到所有情况,即所有使 为真的 的不同可能值。
  • 直观地,我们选择 I 类错误的最大概率作为大小,以便大小可以告诉我们 I 类错误在 最坏情况下 发生的概率,以表明该检验能 控制 I 类错误的程度 [4]
  • 特殊情况:如果 仅包含一个参数,比如(已知值)(即, 是一个简单的假设,说明 ),那么 .
  • 也被称为 显著性水平(这些术语与 统计(不)显著性 的概念有关,而这又与 -值 的概念有关。我们将在后面讨论这些。)
  • 这里的 "" 和置信系数中的 "" 实际上可以通过将置信区间与假设检验联系起来来解释为“相同的”。我们将在后面讨论这些。
  • 由于这个定义,零假设通常包含一个等式(例如, 的形式),因为如果这样,检验的功效可以更方便地计算。

因此,根据这个定义,将 I 类错误概率控制在特定水平 意味着检验的功效不应超过 ,即 (在其他一些地方,这种检验被称为 水平 检验。)

例: 考虑正态分布 (参数空间为:),以及假设 。令 为来自正态分布 的随机样本,相应的实现值为 。假设拒绝域为 .

(a) 求 使得检验的显著性水平为 .

(b) 计算第二类错误概率 。要使第二类错误概率 ,最小样本量是多少(使用相同的拒绝域)?

解决方案.

(a) 为了使显著性水平为0.05,我们需要满足。因此,这意味着 其中。然后我们有

(b) II 类错误概率为 () 样本量为 时,II 类错误概率为 当样本量 增加时, 将变得更负,因此 II 类错误概率会降低。因此, 因此,最小样本量为 12。

Clipboard

练习。 当样本量为 12 时(拒绝域保持不变),计算 I 类错误概率和 II 类错误概率。

解决方案

II 类错误概率为 I 类错误概率为 因此,在相同拒绝域和不同样本量的情况下,检验的显著性水平(在本例中为 I 类错误概率)发生了变化。


到目前为止,我们一直专注于使用 拒绝域 来进行假设检验。但这并不是唯一的方法。另外,我们可以使用 -值。

定义。 (值) 令 为检验统计量 在假设检验中的观测值。

  • 情况 1:检验是左尾检验。那么,值是 .
  • 情况 2:检验是右尾检验。那么,值是 .
  • 情况 3:检验是双尾检验。
  • 子情况 1 的分布关于零点对称(当 为真时)。那么,值是 .
  • 子情况 2 的分布不关于零对称(当 为真)。然后,-值是

备注:

  • -值可以解释为在假设检验中,当 为真时,检验统计量至少与观测到的检验统计量一样 "极端" 的概率。这里,"极端" 有利于 ,即 "极端的方向" 是朝着检验的 "尾部方向"(当检验统计量越接近尾部方向,它越有可能落在拒绝域中,因此拒绝 并接受 )。
  • 因此,当 -值很小时,这意味着检验统计量的观测值已经非常 "极端",导致检验统计量不太可能比观测值更 "极端"。
  • 通常,手动计算 -值可能非常困难。因此,-值通常使用软件(例如 R)计算。
  • 对于情况 3 子情况 1,请考虑以下图表
            pdf of T(X)
             |
           *---*
          /  |  \
         /   |   \
        /    |    \
       /|    |    |\
      /#|    |    |#\
     /##|    |    |##\    
 ---*###|    |    |###*---
 #######|    |    |#######
-------------*-------------
      ^            ^
<---->|   =====>   |<---->             T(x)<0
     T(x)         -T(x) 
"more extreme"          "more extreme"

T(X)<=T(x)          T(X)>=-T(x)          ====> |T(X)|>=|T(x)| ( T(x)=-|T(x)|, -T(x)=|T(x)|)

<-->^                ^<-->
    |                |                 T(x)>0
   -T(x)            T(x) 

T(X)<=-T(x)         T(X)>=T(x)            ====> |T(X)|>=|T(x)| (-T(x)=-|T(x)|, T(x)=|T(x)|)
  • 对于情况 3 子情况 2,请考虑以下图表
                  pdf of T
    |
    |     /*----*
    |    /|      \
    |   /#|       \
    |  /##|        \       
    | /###|         *---|--------*
    |/####|             |#########\
----*------------------------------
        ^                      
        |
        T(x)
    |---|-------------------------|
  T(X)<=T(x)   T(X)>=T(x)       &&&&&: T(X)>= -T(x)
  choose
                              ^
                              |
                              t
    |-------------------------|---|
            T(X)<=T(x)      T(X)>=T(x)
     &&&:                      choose
    T(X)<=-T(x)
我们可以观察到,观测值 可能位于左侧尾部或右侧尾部。无论哪种情况,对于 而言,要使其更“极端”,所得的不等式对应于概率较小的那个。因此,我们有 ""。但我们也需要考虑另一个尾部的“极端”。直观地说,当 更“极端”(在另一个尾部),则 也应该被视为“更极端”。因此,存在一个 ""

下面的定理允许我们使用 -值进行假设检验。

定理。 是假设检验中检验统计量 的一个观测值。原假设 在显著性水平 下被拒绝 当且仅当 -值小于或等于 .

Proof. (Partial) We can prove "if" and "only if" directions at once. Let us first consider the case 1 in the definition of -value. By definitions, -value is and (Define such that .). Then, we have For other cases, the idea is similar (just the directions of inequalities for are different).

备注:

  • 由此可见, 值可以用来以更“连续”的方式报告检验结果,而不仅仅是一个简单的“接受 ” 或 “拒绝 ” 的决定,因为如果 值“远小于”显著性水平 ,那么我们就有更“强”的证据来拒绝 (更强是指,即使显著性水平很低(对 I 类错误的非常严格的要求), 仍然可以被拒绝)。
  • 此外,报告 值允许读者自己选择适当的显著性水平 ,并将 值与 进行比较,从而做出自己的决定,这些决定不一定与检验报告中做出的决定相同(因为读者可能选择与报告中不同的显著性水平)。
  • 这里,我们还要提到一下 统计显著性 的概念。如果一个观测结果在原假设为真的情况下“不太可能”发生(即观察值相当“极端”),则该观测结果具有 统计显著性。更准确地说,就 值而言,这意味着一个检验统计量的观察值是 统计显著的,如果 值小于或等于 ,否则我们就说观察值是 统计不显著的。因此, 可以解释为“显著”或“极端”的基准,因此得名 显著性水平

示例。 回想之前示例的设置:考虑正态分布 的参数空间为:),以及假设 是来自正态分布 的随机样本,对应的实现为 .

在显著性水平 下,我们已经确定拒绝域为 。假设观察到 .

(a) 使用拒绝域来确定我们是否应该拒绝

(b) 使用 值来确定我们是否应该拒绝

解决方案.

(a) 由于 ,我们有 。因此,我们不应该拒绝

(b) 由于检验是右尾检验,-值是 ,其中 。因此, 不应该被拒绝。

Clipboard

练习。

选择显著性水平,基于观察结果, 会被 拒绝。

0.01
0.04
0.06
0.08
0.1

备注:

  • 由此,我们可以注意到,可以通过改变显著性水平来“操纵”决策。事实上,如果将显著性水平设为 1,则 必须被拒绝(因为 -值是概率,必须小于或等于 1)。但是,这种显著性水平毫无意义,因为它意味着 I 类错误的概率可以高达 1,因此这种检验有很大的错误,结果也不可靠。
  • 另一方面,如果将显著性水平设为 0,则 不应该被拒绝(除非 -值正好为零,这极不可能,因为零 -值意味着观察结果是 最极端的,因此检验统计量至少与观察结果一样极端(几乎)不可能)。



评估假设检验

[edit | edit source]

在讨论了一些基本概念和术语之后,我们现在来研究一些评估假设检验好坏的方法。正如我们之前提到的,我们希望犯 I 类错误和 II 类错误的概率都很小,但我们已经提到,通常不可能使这两个概率都任意小。因此,我们建议控制 I 类错误,使用检验的规模,并且“最佳”检验应该是控制 I 类错误后,具有最小犯 II 类错误概率的检验。

这些想法导致了以下定义。

定义。 (检验功效)检验的 功效 是在 为假时拒绝 的概率。也就是说,如果犯 II 类错误的概率是 ,那么功效是

使用这个定义,与其说“最佳”检验(具有最小 II 类错误概率的检验),不如说“具有最大功效的检验”,换句话说,就是“最强大的检验”。

定义. (一致最强大检验)一个检验 ,其拒绝域为 , 是一个 一致最强大 (UMP) 检验, 检验的显著性水平为 , 用于检验 ) 如果

  • 的显著性水平), 并且
  • (UMP) , 对每个 , 以及对每个拒绝域为 的检验 ,并且 是检验 的功效函数)。

分别是检验 的功效函数。)

备注:

  • 拒绝域 有时被称为大小为 最佳拒绝域
  • 换句话说,如果一个检验的大小为 ,并且它的功效在所有大小小于或等于 的其他检验中最大,那么它就是大小为 的 UMP 检验,对于每一个 都是这样。副词“一致”强调了这一点,即对于 每个 都是如此。
  • 由于功效在 的每个值中都最大,UMP 检验的拒绝域 依赖于 的选择,也就是说,无论选择 为何值,拒绝域都是相同的。这是可以预料的,因为拒绝域 不应该随着 的选择而改变。拒绝域 (固定)应该总是最好的,对于每个 都是如此。
  • 如果 是简单的,我们可以简单地将 UMP 检验称为 最强大 (MP) 检验

构建假设检验

[编辑 | 编辑源代码]

构建假设检验的方法很多,但当然并非所有方法都是好的(即“强大”的)。在下文中,我们将提供一些构建假设检验的常用方法。特别是,以下引理对于构建大小为 的 MP 检验非常有用。

Neyman-Pearson 引理

[编辑 | 编辑源代码]

引理。(奈曼-皮尔逊引理)令 是来自具有概率密度函数或概率质量函数 可以是一个参数向量,参数空间为 )的随机样本。令 为似然函数。则检验 具有拒绝域 和大小 是用于检验 的最优检验,其中 是由大小 决定的值。

证明。 让我们首先考虑基础分布是连续的情况。 假设 的大小为 ,作为 UMP 检验的“大小”要求立即得到满足。因此,只需证明 满足作为 MP 检验的“UMP”要求。

请注意,在这种情况下,“” 只是 。因此,对于每个具有拒绝区域 的检验 ,我们将证明

Since we have as desired.

对于底层分布为离散的情况,证明非常类似(只需将积分替换为求和),因此省略。

备注:

  • 有时,我们称 似然比
  • 事实上,由 Neyman-Pearson 引理构建的 MP 检验是 似然比检验 的一种变体,它更一般,因为它可以为 复合 零假设和备择假设构建似然比检验,而不仅仅是 简单 零假设和备择假设。但是,似然比检验可能不是 (U)MP。我们将在后面讨论似然比检验。
  • 对于 离散 分布,可能 不可能 为某些 确定拒绝区域 。在这种情况下,我们称这种 不可实现
  • 直观地,这个检验意味着当 的 “似然” () 不如 的 “似然” () (),相对于观察到的样本。对于 “不如” 的含义,取决于大小
  • 直观地,我们预计 应该是一个 严格小于 1 的正值,这样 “不太可能”。这通常,但不一定,是这种情况。特别是,当大小 很大时, 可能大于 1。
  • 通常,为了确定 的值,我们需要将 “” 转换为另一个 等价 不等式,在该不等式下,在 下的概率更容易计算。
  • 它必须是等价的,这样它在下的概率与“” 在 下的概率相同。因此,在转换过程中,最好使用“”,而不是仅仅“”,甚至逐行写出不同的不等式。
  • 如果是一个向量,那么也应该是向量。

即使奈曼-皮尔逊引理中涉及的假设很简单,在一些条件下,我们可以使用该引理来构造一个UMP检验,以检验复合零假设与复合备择假设。具体细节如下:为了检验

  1. 找到一个MP检验,其大小为,用于检验,使用奈曼-皮尔逊引理,其中是任意值,使得
  2. 如果拒绝域 不依赖于 ,那么检验 对每个 都有最大的功效。因此,检验 是一个大小为 的UMP检验,用于检验
  3. 如果我们能进一步证明 ,这意味着测试 的大小仍然是 ,即使零假设被更改为 。因此,在将 更改为 并且不改变 (同时也调整了测试 的参数空间),测试 仍然满足“MP”要求(因为没有改变 ,因此步骤 2 中的结果仍然适用),并且测试 将满足“大小”要求(因为以这种方式改变了 )。因此,测试 是一个大小为 的 UMP 测试,用于测试 .

对于测试 ,步骤类似。但一般来说,对于测试 ,不存在UMP检验。

当然,当步骤 3 中的条件成立而步骤 2 中的条件不成立时,步骤 1 中的检验 是一个大小为 的UMP检验,用于测试 ,其中 是一个常数(大于 ,否则 不相交)。但是,假设通常不采用这种形式。

示例。 是从正态分布 中抽取的随机样本。

(a) 构造一个大小为 0.05 的MP检验 ,用于测试

(b) 因此,证明检验 也是一个大小为 0.05 的 UMP 检验,用于检验

(c) 因此,证明检验 也是一个大小为 0.05 的 UMP 检验,用于检验

Solution. (a) We can use the Neyman-Pearson lemma. First, consider the likelihood ratio Now, we have where are some constants. To find , consider the size 0.05: () Hence, we have . Now, we can construct the rejection region: and the test with the rejection region is a MP test with size 0.05 for testing .

(b)

证明。 为任意值,使得 。然后,我们可以证明(见下个练习) 其中 是某些常数(可能与上面的常数不同)。由于 这里与 (a) 中的 相同,构建的拒绝域也是 注意, 不依赖于 的值。因此,检验 是一个大小为 0.05 的 UMP 检验,用于检验


(c)

证明。 我们只需要证明 。首先考虑功率函数 ,其中 的累积分布函数。现在,由于当 增加 时, 减小,因此 减小,可以推出功率函数 严格递增 函数。因此, 然后,结果随之而来。

Clipboard

练习。 证明对于所有 成立。

解决方案

证明。 首先,考虑似然比 然后,我们有 (最后一个等价关系成立,因为 。)



备注:

  • 此拒绝区域已在之前的示例中出现过。

现在,让我们考虑另一个例子,其中基础分布是离散的。

例: 为一个离散随机变量,其概率质量函数为 (注意每行值的总和均为 1。参数空间为 。)给定一个 单一观测值 ,构建一个大小为 0.1 的最优检验来检验

Solution. We use the Neyman-Pearson lemma. First, we calculate the likelihood ratio for each value of : For convenience, let us sort the likelihood ratios in ascending order (we put the undefined value at the last): By Neyman-Pearson lemma, the MP test with size 0.1 for testing is a test with size 0.1 and rejection region So, it remains to determine . Since the size is 0.1, we have Notice that So, we can choose (approximately), so that rejection region is

Clipboard

练习: 计算上述检验的第二类错误概率。

解决方案

概率为 (注意尽管该检验是最优的,但这种情况下第二类错误概率仍然很大。)

使用 Neyman-Pearson 引理构建另一个大小为 0.05 的最优检验来检验

解决方案

使用 Neyman-Pearson 引理无法构建此大小的最优检验,因为我们无法选择一个 使得 。我们可以选择 (近似)使大小为 0.04,或者选择 使大小为 0.06,但我们无法选择一个 使大小为 0.05。



似然比检验

[edit | edit source]

之前,我们建议使用 Neyman-Pearson 引理来构建检验简单零假设与简单备择假设的最优检验。然而,当假设是复合的时候,我们可能无法使用 Neyman-Pearson 引理。因此,在接下来的内容中,我们将提供一个通用的方法来构建任何假设检验,不受限于简单假设。但我们应该注意到,构建的检验不一定是均匀最优检验。

定义。(似然比检验)令 。大小为 似然比检验 用于检验 ,以及 可能是一个向量)具有拒绝域 ,其中 是由大小 决定的常数。

备注:

  • 存在,我们有 其中 中的受限最大似然估计,而 中的最大似然估计。我们可以在以下假设其存在。
  • 由于 ,因此我们有
  • 直观上,当 很小时,即 ,这表明在 中有许多 中的所有 更可能。因此, 应该直观地被拒绝。
  • 另一方面,当 非常接近 1 时,即 ,这表明在 中只有极少数 中的所有 更可能。因此, 应该直观地 被拒绝。
  • 当简单假设和备择假设都为简单假设时,似然比检验将与 Neyman-Pearson 引理中提出的检验相同。


假设检验与置信区间的关系

[edit | edit source]

我们已经提到,假设检验与置信区间之间存在相似之处。在本节中,我们将介绍一个定理,该定理建议如何从置信区间(或更一般地,置信 )构造假设检验,反之亦然。

定理。 对于每个 ,令 为大小为 的检验 的拒绝域。另外,令 为来自潜在分布的随机样本 的对应实现。此外,令

定义一个集合 那么,随机集合 置信集

相反,设集合 是一个未知参数 置信集。对于每一个 ,定义 那么, 是一个检验 的大小为 的拒绝域。

证明。 对于第一部分,由于 是大小为 的检验的拒绝域,我们有 因此,随机集 的覆盖概率为 这意味着随机集 置信集的 .

对于第二部分,根据假设,我们有 因此,拒绝域为 的检验的大小为

备注:

  • "" 可以取 中的任意值。因此,可以将 视为分布的未知参数。
  • 通常,第一个结果更有用。但是,第二个结果证明了我们的直觉:给定未知参数 的置信区间,如果某个特定值 位于置信区间内,那么我们有 "" 的信心,认为 。现在,从这个定理中,我们知道我们可以将“有 的信心认为 ” 解释为“在显著性水平 下接受 ”。
  • 例如,如果 的 95% 置信区间是 ,并且由于 ,我们直观地说,我们有 95% 的信心认为 。现在,我们可以更正式地说,我们在显著性水平 下接受
  • 因此,置信系数 和显著性水平 之间的关系现在很清楚了。
  • 在某些情况下,给定一些观察值,当一个 置信区间 包含零时,则 只有 统计上不显著 的差异。当我们考虑置信系数和显著性水平之间的关系时,这种说法是自然的。
  • 由于 0 包含在置信区间中,我们在显著性水平 下接受(不拒绝) 。这意味着观察值 统计上不显著。因此,我们有了这种说法。


  1. 如果 为空,则该假设毫无意义,所以我们对此情况不感兴趣。
  2. 因此,一个自然衡量假设检验“好坏”的指标是它的“误差大小”。我们将在本章后面讨论这些。
  3. 这是因为在""或"(为真)"上进行条件化是没有意义的,因为它们不是随机的,因此概率为零或一。当概率为零时,“条件概率”没有定义。当概率为一时,在它上的条件化与不在它上的条件化相同。
  4. 即使对于 中的大多数参数值,测试犯第一类错误的概率很低,如果对于 中的某个特定参数值,该测试犯第一类错误的概率很高,那么直观地说,这意味着该测试 不能很好地控制 第一类错误,对吗?
华夏公益教科书