跳转到内容

统计学入门/关联

来自维基教科书,开放的书籍,开放的世界

我们使用术语关联来表示两个变量不是相互独立的。因此,我们预计一个变量的值的变化将与另一个变量的变化相关联。我们不假设两个变量之间的关系反映因果关系。最后一点已经成为一个老生常谈的话题,值得指出的是,虽然相关性不能证明因果关系,但它可能是一个非常强烈的暗示。

从某种意义上说,关联是最基本和最常见的统计观察结果之一。在假设检验中,我们观察两个变量之间的关联,一个被视为自变量(我们可以自由修改),另一个被视为因变量(我们观察其值的变化)。

因此,例如,在标量变量的情况下,皮尔逊相关系数是关联的常用度量,而对于分类数据,我们可以使用皮尔逊卡方检验[1]来检验关联,并使用Cramer's V或二元变量的Phi系数[2]来表示其强度。

相关性

[编辑 | 编辑源代码]

相关性衡量两个变量之间关联的强度。我们将首先考虑两个标量变量之间的关系,然后是等级变量之间的关系。

皮尔逊相关系数

[编辑 | 编辑源代码]

皮尔逊的R表示两个标量变量之间关联的强度和方向,范围从-1(表示强烈的负相关关系)到1(表示强烈的正相关关系)。在0处,我们说没有相关性。皮尔逊的R衡量一个变量对另一个变量的线性依赖性。线性依赖性是指一个变量可以从另一个变量通过w: 线性方程(将在下面的回归中稍微详细地解释)计算出来的程度。

R显著性是零假设R=0为真的概率。该统计量近似于t分布。

考虑以下婴儿身高与年龄的测量值

年龄(月) 身高(厘米)
0 53.0
3 59.5
6 66.0
9 71.5
12 76.0
18 85.0
24 90.0

这些数据可以在此图中可视化

Add caption here
在此添加标题

我们可以看到,年龄(月)与身高(厘米)之间存在强烈的正相关关系。实际上,对于这些数据,相关系数的值为0.99(四舍五入到小数点后两位)。

负相关
[编辑 | 编辑源代码]

在以下数据中,我们看到随着小部件数量的增加,每100个小部件的价格下降。这是一种负相关关系,皮尔逊的R值是负数。

小部件数量 每100个小部件的价格
1000 60
800 70
600 80
400 90
200 100

这可以在以下图形中可视化

Add caption here
在此添加标题

对于这些数据,相关系数的值为-1。

斯皮尔曼相关系数(等级数据)

[编辑 | 编辑源代码]

斯皮尔曼相关系数(ρ - 通常发音为英文单词row - 船而不是争论)是皮尔逊R的对应系数,用于序数数据。该系数表示两个序数变量之间关联的程度。两个具有正相关关系的变量,在这种情况下,ρ=1,会产生以下图形

单调函数
上面我们读到皮尔逊的R衡量xy的线性依赖性,即线性函数代表关系的程度。斯皮尔曼的ρ可以解释为单调函数在多大程度上代表xy之间的关系。对于我们目前的目的,单调函数是指在y轴上永远不改变方向的函数 - 也就是说,图形中没有凸起或凹陷。
X and Y have a Spearman correlation coefficient of 1 in this graph
X和Y在此图中具有1的斯皮尔曼相关系数

我们看到,与其是一条直线,不如说它产生了一条曲线,虽然它可能“平稳”,但在y轴上永远不会反转其运动方向。-1的分数将在Y轴上产生该图形的镜像。

虽然我们通常认为ρ是皮尔逊R的“替代方法”,但实际上测量的是完全不同的东西。但是,对于我们的目的,由于它确实提供了两个等级变量之间关联强度的度量,因此这种表征是可接受的。

斯皮尔曼的ρ并不是唯一非参数相关性度量,我们还看到了肯德尔的τ,虽然它也指示关联的强度,但它是通过表达两个序列(xy)以相同顺序排列的概率来实现的,以对抗它们被不同排列的可能性。

对相关系数的推断

[编辑 | 编辑源代码]

关于相关性的零假设是总体相关系数为0,并且基于样本数据和软件计算的相关系数的p值指示你是否应该拒绝零假设。如果置信水平设置为95%,则当p<0.05时拒绝零假设。

卡方检验:重新审视交叉表

[编辑 | 编辑源代码]

我们之前已经看到如何对名义变量进行交叉表并计算频率。数据看起来像这样

交叉表:眼睛颜色 x 性别
性别
眼睛颜色 蓝色 6 6
棕色 12 12
绿色 7 7
灰色 4 6
其他 9 7
总数 38 38

我们想知道眼睛颜色性别之间是否存在任何关联零假设是两者之间没有关联:每种眼睛颜色在两种性别中都可能被观察到。为了检验这一点,我们将计算统计量皮尔逊卡方,然后检查其在正确自由度下的显著性。当然,我们的统计软件包将为我们完成所有繁重的工作,我们只需要解释结果。卡方是如何计算的?

我们首先将预期计数添加到表的单元格中。单元格的预期计数计算如下

交叉表:眼睛颜色 x 性别
性别
眼睛颜色 蓝色 6 6
预期 6 6
棕色 12 12
预期 12 12
绿色 7 7
预期 7 7
灰色 4 6
预期 5 5
其他 9 7
预期 8 8
统计总数 38 38
预期总数 38 38

这些期望计数代表观测值落在特定单元格的概率。

现在我们可以问,观察到的计数与我们的预期相近还是相距甚远?这是检验两个分类变量之间关联性的核心问题。

  • 计算的统计量是皮尔逊卡方。
  • 原假设是这两个变量之间没有关联。
  • 自由度计算为(行数 - 1)*(列数 - 1)

您不需要了解计算卡方的公式,应该依赖您的软件来计算它。但是,为了让您看到它,这里就是公式:

请注意,这个统计量再次涉及计算偏差 - 这一次是观察到的计数和预期计数之间的差异。就像其他情况下一样,偏差被平方,然后将此数字除以每个单元格的预期计数,并将结果相加。

我们的软件 (我使用的是 SPSS) 提供了数据,现在我们可以解释结果。

  • 我们将设定 95% 的置信水平 (因此我们要求 p<0.05 来拒绝原假设)。
  • 我们的数据得出的 统计量为 0.650,自由度为 (5-1)*(2-1) = 4。
  • p 的值为 0.957p>0.05

根据这些数据,我们不能拒绝原假设,因此得出结论,这两个变量没有关联,而是相互独立的。

1 简介

2 统计测量

3 参数方法和非参数方法

4 描述性统计

5 推论统计:假设检验

6 自由度

7 显著性

8 关联性

9 比较组或变量

10 回归

  1. 这里我忽略了从卡方统计量推导出的皮尔逊列联系数。
  2. Cramer's V 适用于序数数据和名义数据。


华夏公益教科书