统计学基础/比较组别或变量
这些检验回答了以下问题
- 这些组别在该现象方面是否相似?
- 这些现象在该组别中是否相似?
示例将有助于阐明。
让我们以第一个例子为例,我们可以问男性学生的平均身高是否与女性学生的平均身高相同? 在这种情况下,我们有两个独立的受试者组别和一个标量变量,我们将比较它们的平均得分。
对于第二个例子,假设我们测试所有学生的算术基本技能;然后我们给每个学生服用一次鱼油剂,一天后我们再次测试他们的算术基本技能。我们想回答这个问题鱼油剂是否能提高算术基本技能测试的表现? 在这种情况下,我们有一个组别,但有两个变量 - 一个治疗前变量和一个治疗后变量。这两个变量都是标量,我们将比较它们的平均得分。这有时被称为重复测量设计。该第二个例子的另一个例子可能涉及询问,学习两种语言的学生在法语考试中的表现是否与他们在西班牙语考试中的表现一样好。我们将比较所有法语考试得分和所有西班牙语考试得分。
这两种情况下,两个平均值可能永远不会完全相同,因此我们想知道它们不是不同,而是统计上不同,或者等效地显著不同。因此,我们将分别计算一个检验统计量,确定自由度,并评估结果的显著性。
请注意,在我的第一个例子中,我询问了两个组别的平均身高是否相同。如果例如男性学生的平均身高高于女性学生,或者低于女性学生,则该问题将得到否定回答。这是一个双侧检验。
在第二个例子中,我询问了鱼油剂是否提高了学生的表现。如果治疗后的表现低于或等于治疗前的表现,则该问题将得到否定回答。这是一个单侧检验。
独立样本t检验用于比较来自两个不同总体的样本。假设这两个样本之间没有关系。不需要对两个组别进行随机化,因此,如果我们收集了一组学生的资料,然后按性别分组进行比较,这满足了属于独立组别的标准。
对于独立组别,检验会因组别的方差而变得复杂,在计算统计量之前,我们应该确定方差是否(大致)相等,或者是不相等。这可以通过计算Levene′s F来完成。原假设是方差相等。如果Levene′s F显著,则方差不相等。根据你使用的软件包,你需要在进行t检验之前执行方差检验,或者它会自动提供,你需要根据Levene检验的结果来解释你得到的结果。
该检验的原假设是两个组别的平均得分之间没有差异。如果置信度设置为95%,你使用p<0.05来拒绝该假设,并接受两个组别的平均得分不同的备择假设。t检验的自由度由N-2给出。
配对样本t检验用于比较相同受试者在两个不同变量上的得分。这两个变量可能代表两个截然不同的得分,例如两种不同语言的熟练程度,或者在不同时间或不同条件下对一个得分的评分,例如运动前后静息心率。
配对样本t检验在实践中类似于独立样本检验,不同之处在于,它不需要进行方差齐性检验。例如,SPSS只返回一个t值及其显著性。和以前一样,原假设是这两个变量的平均值之间没有差异,备择假设是有差异。如果置信度设置为95%,我们使用p<0.05来拒绝原假设。
考虑以下关于一个30名学生的班级收集的数据:15名男生和15名女生。我们记录了他们的性别,女孩编码为1,男孩编码为2,以及他们在数学考试中的得分。我们可以问,根据这些数据,女生和男生在考试中的得分是否真的不同。独立样本t检验将比较两个组别的平均得分,并告诉我们它们是否显著不同。
女生 | 44 | 45 | 48 | 50 | 51 | 52 | 53 | 53 | 57 | 58 | 59 | 60 | 62 | 63 | 64 |
男生 | 39 | 42 | 47 | 50 | 52 | 52 | 54 | 55 | 55 | 56 | 56 | 56 | 58 | 60 | 62 |
我们将单独的男生的平均值称为μ-boys,单独的女生的平均值称为μ-girls。以下是两个组别的平均值,以及标准差作为方差相似性的指标。
性别 | N | 平均值 | 标准差 |
---|---|---|---|
女生 | 15 | 54.60 | 6.401 |
男生 | 15 | 52.93 | 6.296 |
零假设是 μ-boys=μ-girls。我们将计算 F 统计量来检查方差的同质性,然后计算 t 统计量。我们将置信水平设置为 95%,因此如果p<0.05,我们将拒绝零假设。
- F=0.291 (p=0.594) - 由于这并不显著,我们假设方差相等
- t = 0.719 (df = 28, p=0.478)
由于 t 统计量不显著,我们无法拒绝零假设,并接受 μ-boys=μ-girls。
t 统计量只能用于两个组或两个变量。我们通常对两个以上组或两个以上变量水平感兴趣。例如,我们想知道数学成绩是否会随着眼睛颜色的变化而有规律地变化。我们可以将蓝眼睛者的平均数学成绩称为 μ-blue,棕色眼睛者的平均数学成绩称为 μ-brown,其余的称为 μ-other。因此,零假设是这些平均值之间没有差异,即 μ-blue=μ-brown=μ-other。
我们用方差分析或 ANOVA 来检验这一点。
ANOVA 试图通过观察方差来确定我们观察到的组的平均得分是否来自同一总体。具体来说,我们计算(或者更确切地说,我们的软件会计算!)每个组的平方和以及整个数据集的平方和。通过检查组内方差与组间方差的比率,我们可以确定它们是否实际上都来自同一总体。如果它们来自同一总体,那么我们预计组间方差将小于组内方差,反之,如果它们来自三个不同的总体,那么组内方差应该小于组间方差。
为了回答我们提出的问题,我们正在考虑一个单因素 ANOVA。产生的统计量是 F,自由度计算为 组数 - 1。ANOVA 只有在各组方差或多或少相等的情况下才能依赖,因此我们应该首先用 Levene 检验来检查这一点(就像我们在进行独立样本 t 检验时一样)。
ANOVA 的一个变体是重复测量比较。在这个检验中,我们观察一组受试者在多次重复处理后每个处理后的得分。对于重复测量设计,除了 ANOVA 的通常假设之外,还有球形的假设。
我们用一些化学处理方法处理不同菌株的细胞,并在等待一段时间后测量细胞生长,看看所有菌株的生长是否相同。
一个 30 名学生的班级被分成三个班级,每个班级 10 名学生。这些班级用数字 1、2 或 3 来标识。每个班级的老师对同一内容采用不同的教学策略,在学年结束时,学生参加了考试。我们想知道学生的考试成绩是否会受到他们所在班级的影響。考试成绩被用于单因素 ANOVA,置信水平为 95%。
Levene 检验给出了以下结果
F = 0.8581,(p=0.4352)
因此我们不能拒绝方差同质性检验的零假设,并接受三个班级考试成绩的方差相等。
平均值是
班级 | 班级 1 | 班级 2 | 班级 3 |
---|---|---|---|
平均值 | 51.10 | 53.70 | 56.50 |
ANOVA 结果是
F = 1.962 (df=2, p=0.16)
由于 F 统计量不显著,我们接受零假设,即数学考试成绩在各班级之间没有差异。
我们测试了一组学生的智商,并给学生服用鱼油。在六个月内每月重复进行处理,每次处理时剂量都会增加。在每次服用鱼油治疗后,我们再次测试他们的智商,看看不同的治疗水平是否会产生明显不同的效果。(这个实验设计可能非常有缺陷,但它提供了一个重复测量策略的简单示例)。我们正在比较每个治疗水平的平均得分,零假设是 μlevel1=μlevel2=μleveln。
让我们考虑一个例子,其中感兴趣的变量不是标量变量,而是序数或等级变量。我们可以想象我们正在比较澳大利亚和美国在国际游泳比赛中的结果(奇怪的是,没有其他国家参与)。
我们能说他们的排名或多或少相似,或者一方倾向于排名更高吗?
或者,我们可以考虑一群游泳运动员,并问:他们在自由泳和蝶泳比赛中的排名是否相同?
在每种情况下,请注意我们正在比较排名。一种可能的解释是我们正在检验中心位置的相等性(例如,中位数)。
Mann-Whiteney U 检验比较两个独立的等级观察组,并确定一个组是否大于另一个组。零假设是两组的排名分布相等,具体来说,如果我从第一组中选择一个观察值,称为观察值 a,然后从第二组中选择一个观察值,称为 b,那么检验比较的是 a>b 的概率与 b>a 的概率。备择假设或实验假设是 a=b 的概率小于 0.5,因此 a>b 的概率大于 0.5,或者 a<b 的概率大于 0.5。备择假设有单尾和双尾两种形式。
检验统计量是 U。