医学统计学导论/单个样本分析
在开始理论之前,我们将考虑一个简单的例子。该例子将展示统计分析的基本组成部分,并旨在直观地理解从这种分析中可以获得的结果类型。
关于人体体温的一个简单问题是,它平均是否为 37°C?为了回答这个问题,进行了一项研究,测量了 130 个人体的温度。数据可以在这里下载 normtemp.dat,文档可以在 (Shoemaker, 1996) 和其中的参考文献中找到。数据的简要摘要如下所示,即所谓的茎叶图
Stem-and-leaf plot for tempC (Body Temperature / Celsius) tempC rounded to nearest multiple of .1 plot in units of .1
35s | 7 35. | 899 36* | 011 36t | 222222333333 36f | 444444555 36s | 66666666666677777777777777 36. | 888888888888888999999999999 37* | 0000000000111111111111111111 37t | 2222222333333 37f | 44445 37s | 7 37. | 8 38* | 38t | 2
这表明,例如,一个人(从顶部第一个)的体温为 35.7°C,另一个人(从顶部第二个)为 35.8°C,而两个人(从顶部第三个和第四个)为 35.9°C,等等。大多数人的温度在 36.6°C 到 37.3°C 之间。
下面直方图给出了相同数据的非常相似的图形表示
如果我们想用数字来概括数据,两个重要的度量是平均值和标准差 (SD)。对于此样本数据,平均值为 36.805°C,SD 为 0.407°C。我们将在后面给出这两个汇总统计量的更精确定义,但现在我们可以将它们视为数据的中心点(平均值)和围绕其平均值的数据变异性的度量。在图形上,平均值可以被认为是分布的平衡点,其中直方图的列的权重与其面积相同。对于这种数据,SD 可以解释如下:如果我们取平均值并减去两倍的 SD,或者加上两倍的 SD,那么大约 95% 的所有受试者将在此区间内具有体温。
在初步观察数据后,让我们回到感兴趣的问题:真实的平均体温是否为 37°C?回答这个问题的一种方法是将问题颠倒过来,并从假设 37°C 实际上是真实的平均温度开始。问题就变成了,从这样一个假设的总体中抽取的样本大小为 130 的样本会是什么样子?这个问题可以用统计理论来回答,或者——在这个计算机化的时代——可以用基于随机数生成的模拟样本来回答。具体来说,让我们假设这个假设的总体具有如下所示的体温分布
想象一下,我们接下来抽取 1,000 个样本,每个样本包含 130 个人。它们的平均值会是什么样子?这里显示了
我们再次看到一个近似钟形的直方图。样本的平均值集中在 37°C 附近(就像假设的分布一样),但其分布范围比以前小得多。所有的一千个平均值都在 36.89°C 和 37.10°C 之间。这是我们能做的第一个重要观察:平均值的变异性比单个观测值的变异性更小(通常要小得多)。我们将在后面看到,存在一个描述这种变异性降低的明确公式。第二个重要观察是,一千个样本中没有一个的平均值等于或小于 36.805°C(请记住,36.805°C 是对“真实”个体观察到的实际平均值)。因此,如果总体中的真实平均体温为 37°C,则极不可能得到 36.805°C 的样本平均值。这就是所谓的统计显著结果,这是技术术语,表示实际观察到的数据与如果所调查的假设(真实平均体温是否为 37°C?)为真时所预期的数据非常不同。因此,对我们问题的答案是,虽然我们不能完全排除真实的平均体温为 37°C,但如果真实的平均值为 37°C,我们实际观察到的结果极不可能出现。因此,我们得出结论,真实的平均体温不为 37°C,即我们拒绝这个假设。
所以它不为 37°C,这实际上不是一个很有意义的发现。更有趣的问题是,根据我们在该样本中观察到的结果,真实的平均体温可能是什么。这通常用所谓的置信区间来回答。置信区间的基本原理是利用数据获得尽可能好(即狭窄)的区间,在这个区间内,参数的真实值以给定的概率(通常为 95%)存在。计算区间的公式取决于数据的类型和采样方式,但我们将把这留到后面的章节,现在集中讨论它们的解释。
因此,让我们再次考虑上面描述的假设总体,其平均值为 37°C,SD 为 0.407°C。在下图中,我们看到从这个假设分布中抽取的 50 个随机样本的 95% 置信区间的计算结果。每个区间由一个点表示,表示特定样本的平均值,而垂直线表示为样本计算的置信区间。
请注意,在 50 个置信区间中,只有两个没有包含 37°C 的真实值,这是该假设总体的真实值。这与定义非常一致,即 95% 的此类区间应该包含真实值。换句话说,5% 的区间不应该包含真实值,对于 50 个样本来说,这对应于 2.5 个区间不覆盖真实值。
对于基于真实观察结果的这个特定样本,95% 置信区间为 (36.73°C; 36.88°C)。因此,关于平均人体体温的结论是,对真实平均值的最佳估计是 36.81°C,我们有 95% 的把握相信真实值在 (36.73°C; 36.88°C) 范围内。是陈述的后面部分,对于理解统计分析的价值至关重要:如果进行得当,它会产生对结果的不确定性的度量,或者用日常语言来说,已经测量了到真实值的可能距离,尽管其确切值未知。