跳转到内容

统计/测试数据/卡方检验

来自维基教科书,开放书籍,开放世界

总体思路

[编辑 | 编辑源代码]

假设你观察到绝对频率 和在零假设下预期的绝对频率 ,那么

可能表示从 开始的简单索引,甚至可能是从 的多重索引。

检验统计量 近似地服从 分布,如果

  1. 对于所有预期的绝对频率 满足 ,并且
  2. 对于至少 80% 的预期的绝对频率 满足

注意:在不同的书籍中,你可能会发现不同的近似条件,请随时添加更多条件。

自由度可以通过可以自由选择的绝对观测频率的数量来计算。我们知道绝对预期频率之和为

这意味着自由度的最大数量是. 我们可能需要从自由度中减去从样本中估计所需的参数数量,因为这意味着观察频率之间存在进一步的关系。

检验统计量的分布推导

[编辑 | 编辑源代码]

根据 Boero, Smith 和 Wallis (2002) 的说法,我们需要了解多元统计才能理解推导过程。

描述样本中绝对观测频率 的随机变量 服从多项分布,其中 是样本中的观测数量, 是未知的真实概率。在某些近似条件下(中心极限定理),可以得到以下结果:

其中 是多元 维正态分布,,以及

.

协方差矩阵 的秩仅为 ,因为 .

如果我们考虑广义逆,那么可以得到以下结果:

分布(证明见 Pringle 和 Rayner,1971)。

由于多项分布近似于多元正态分布,该项为

分布。如果观察到的概率之间存在进一步的关系,那么 的秩将进一步降低。

一个常见的情况是,预期概率所依赖的参数需要从观察到的数据中估计出来。如上所述,通常规定卡方分布的自由度为 ,其中 是估计参数的数量。如果使用最大似然法进行参数估计,则只有当估计量是有效的时,这才是正确的 (Chernoff 和 Lehmann, 1954)。一般情况下,自由度介于 之间。

示例

[edit | edit source]

最著名的例子将在后面的部分详细介绍: 独立性检验、 均匀性检验和 分布检验。

检验可用于生成 "快速且粗略" 的检验,例如:

随机变量 是对称分布的,与

随机变量 不是对称分布的。

我们知道,在对称分布的情况下,算术平均值 和中位数应该几乎相同。因此,测试这个假设的一个简单方法是统计有多少观测值小于平均值 (),以及有多少观测值大于算术平均值 ()。如果平均值和中位数相同,那么 50% 的观测值应该小于平均值,而 50% 的观测值应该大于平均值。它成立

.

参考资料

[编辑 | 编辑源代码]
华夏公益教科书