统计/测试数据/目的
总的来说,统计检验的目的是确定某个假设在给定观察数据的情况下是否极不可能。
对于这种检验,存在两种常见的哲学方法,即显著性检验(由费舍尔提出)和假设检验(由奈曼和皮尔逊提出)。
显著性检验旨在量化反对特定假设为真的证据。我们可以将其视为指导研究的检验。我们相信某个陈述可能是真的,并希望弄清楚是否值得投入时间进行调查。因此,我们着眼于该陈述的反面。如果它很可能成立,那么进一步研究似乎没有意义。但是,如果它极不可能成立,那么进一步研究就很有意义。
一个具体的例子可能是药物测试。我们有很多药物需要测试,但时间有限,因此我们假设一种药物没有任何积极效果,只有当这种假设不太可能成立时,我们才会进一步研究。
假设检验则着眼于支持特定假设为真的证据。我们可以将其视为指导决策的检验。我们需要尽快做出决策,并怀疑某个陈述是真实的。因此,我们查看我们出错的可能性,如果我们出错的可能性足够低,我们可以假设该陈述是真实的。通常,这种决策是最终的,不能更改。
统计学家经常忽略这些差异,并错误地将“显著性检验”和“假设检验”这两个术语视为可互换的。
数据分析师经常想知道两组数据之间是否存在差异,以及该差异是否可能是由于随机波动造成的,还是足够罕见,以至于随机波动很少造成这种差异。
特别是,我们经常希望了解平均值(或均值),或了解变异性(以方差或标准差来衡量)。
统计检验是通过首先做出一些假设(称为零假设),然后确定在给定该假设的情况下,观察到的数据是否不可能发生来进行的。如果在假设的零假设下观察到数据的概率足够小,那么就拒绝零假设。
一个简单的例子可能有助于理解。我们希望确定男性和女性的平均身高是否相同。我们选择并测量了 20 名女性和 20 名男性。我们假设零假设,即男性和女性的平均身高之间没有差异。然后,我们可以使用t 检验来确定在给定此假设的情况下,我们 40 个身高的样本是否不可能发生。基本思想是假设身高服从正态分布,并假设男性和女性的均值和标准差相同。然后我们计算 20 名男性的平均值和 20 名女性的平均值,我们还计算每个样本的样本标准差。然后,使用自由度为 40-2=38 的两个均值 t 检验,我们可以确定男性样本和女性样本之间身高的差异是否足够大,以使其不可能来自同一个正态总体。