统计学入门/关联
我们使用术语关联来表示两个变量不是相互独立的。因此,我们预计一个变量的值的变化将与另一个变量的变化相关联。我们不假设两个变量之间的关系反映因果关系。最后一点已经成为一个老生常谈的话题,值得指出的是,虽然相关性不能证明因果关系,但它可能是一个非常强烈的暗示。
从某种意义上说,关联是最基本和最常见的统计观察结果之一。在假设检验中,我们观察两个变量之间的关联,一个被视为自变量(我们可以自由修改),另一个被视为因变量(我们观察其值的变化)。
因此,例如,在标量变量的情况下,皮尔逊相关系数是关联的常用度量,而对于分类数据,我们可以使用皮尔逊卡方检验[1]来检验关联,并使用Cramer's V或二元变量的Phi系数[2]来表示其强度。
相关性衡量两个变量之间关联的强度。我们将首先考虑两个标量变量之间的关系,然后是等级变量之间的关系。
皮尔逊的R表示两个标量变量之间关联的强度和方向,范围从-1(表示强烈的负相关关系)到1(表示强烈的正相关关系)。在0处,我们说没有相关性。皮尔逊的R衡量一个变量对另一个变量的线性依赖性。线性依赖性是指一个变量可以从另一个变量通过w: 线性方程(将在下面的回归中稍微详细地解释)计算出来的程度。
R的显著性是零假设R=0为真的概率。该统计量近似于t分布。
考虑以下婴儿身高与年龄的测量值
年龄(月) | 身高(厘米) |
---|---|
0 | 53.0 |
3 | 59.5 |
6 | 66.0 |
9 | 71.5 |
12 | 76.0 |
18 | 85.0 |
24 | 90.0 |
这些数据可以在此图中可视化
我们可以看到,年龄(月)与身高(厘米)之间存在强烈的正相关关系。实际上,对于这些数据,相关系数的值为0.99(四舍五入到小数点后两位)。
在以下数据中,我们看到随着小部件数量的增加,每100个小部件的价格下降。这是一种负相关关系,皮尔逊的R值是负数。
小部件数量 | 每100个小部件的价格 |
---|---|
1000 | 60 |
800 | 70 |
600 | 80 |
400 | 90 |
200 | 100 |
这可以在以下图形中可视化
对于这些数据,相关系数的值为-1。
斯皮尔曼相关系数(ρ - 通常发音为英文单词row - 船而不是争论)是皮尔逊R的对应系数,用于序数数据。该系数表示两个序数变量之间关联的程度。两个具有正相关关系的变量,在这种情况下,ρ=1,会产生以下图形
上面我们读到皮尔逊的R衡量x对y的线性依赖性,即线性函数代表关系的程度。斯皮尔曼的ρ可以解释为单调函数在多大程度上代表x和y之间的关系。对于我们目前的目的,单调函数是指在y轴上永远不改变方向的函数 - 也就是说,图形中没有凸起或凹陷。 |
我们看到,与其是一条直线,不如说它产生了一条曲线,虽然它可能“平稳”,但在y轴上永远不会反转其运动方向。-1的分数将在Y轴上产生该图形的镜像。
虽然我们通常认为ρ是皮尔逊R的“替代方法”,但实际上测量的是完全不同的东西。但是,对于我们的目的,由于它确实提供了两个等级变量之间关联强度的度量,因此这种表征是可接受的。
斯皮尔曼的ρ并不是唯一非参数相关性度量,我们还看到了肯德尔的τ,虽然它也指示关联的强度,但它是通过表达两个序列(x和y)以相同顺序排列的概率来实现的,以对抗它们被不同排列的可能性。
关于相关性的零假设是总体相关系数为0,并且基于样本数据和软件计算的相关系数的p值指示你是否应该拒绝零假设。如果置信水平设置为95%,则当p<0.05时拒绝零假设。
我们之前已经看到如何对名义变量进行交叉表并计算频率。数据看起来像这样
交叉表:眼睛颜色 x 性别 | ||||
性别 | ||||
女 | 男 | |||
眼睛颜色 | 蓝色 | 6 | 6 | |
棕色 | 12 | 12 | ||
绿色 | 7 | 7 | ||
灰色 | 4 | 6 | ||
其他 | 9 | 7 | ||
总数 | 38 | 38 |
我们想知道眼睛颜色与性别之间是否存在任何关联。零假设是两者之间没有关联:每种眼睛颜色在两种性别中都可能被观察到。为了检验这一点,我们将计算统计量皮尔逊卡方,然后检查其在正确自由度下的显著性。当然,我们的统计软件包将为我们完成所有繁重的工作,我们只需要解释结果。卡方是如何计算的?
我们首先将预期计数添加到表的单元格中。单元格的预期计数计算如下
交叉表:眼睛颜色 x 性别 | |||||||||
性别 | |||||||||
女 | 男 | ||||||||
眼睛颜色 | 蓝色 | 6 | 6 | ||||||
预期 | 6 | 6 | |||||||
棕色 | 12 | 12 | |||||||
预期 | 12 | 12 | |||||||
绿色 | 7 | 7 | |||||||
预期 | 7 | 7 | |||||||
灰色 | 4 | 6 | |||||||
预期 | 5 | 5 | |||||||
其他 | 9 | 7 | |||||||
预期 | 8 | 8 | |||||||
统计总数 | 38 | 38 | |||||||
预期总数 | 38 | 38 |
这些期望计数代表观测值落在特定单元格的概率。
现在我们可以问,观察到的计数与我们的预期相近还是相距甚远?这是检验两个分类变量之间关联性的核心问题。
- 计算的统计量是皮尔逊卡方。
- 原假设是这两个变量之间没有关联。
- 自由度计算为(行数 - 1)*(列数 - 1)
您不需要了解计算卡方的公式,应该依赖您的软件来计算它。但是,为了让您看到它,这里就是公式:
请注意,这个统计量再次涉及计算偏差 - 这一次是观察到的计数和预期计数之间的差异。就像其他情况下一样,偏差被平方,然后将此数字除以每个单元格的预期计数,并将结果相加。
我们的软件 (我使用的是 SPSS) 提供了数据,现在我们可以解释结果。
- 我们将设定 95% 的置信水平 (因此我们要求 p<0.05 来拒绝原假设)。
- 我们的数据得出的 统计量为 0.650,自由度为 (5-1)*(2-1) = 4。
- p 的值为 0.957,p>0.05。
根据这些数据,我们不能拒绝原假设,因此得出结论,这两个变量没有关联,而是相互独立的。