统计/摘要/范围
样本(数据集)的范围仅仅是数据中可能的最大差异,即最大值和最小值之间的差异。一个更准确的术语是“范围宽度”,通常用字母 R 或 w 表示。这两个单独的值(最大值和最小值)被称为“范围限制”。通常这些术语会混淆,学生应该注意使用正确的术语。
例如,在一个样本中,值分别为 2 3 5 7 8 11 12,范围是 11 (|12|-|2|+1=11),范围限制是 2 和 12。
范围是数据集中离散程度(分布)最简单、最容易理解的测量,尽管它在日常生活中被广泛使用,但对于严肃的统计工作来说,它过于粗糙。它不是一个“稳健”的度量,因为显然,从总体中找到最大值和最小值的概率很大程度上取决于我们从总体中选择样本的大小,因此它的值很可能在不同的样本之间有很大的差异。此外,它不是一个令人满意的描述符,因为它只依赖于样本中的两个项目,忽略了所有其他项目。一个更好的离散程度测量是标准差(s),它考虑了所有数据。它不仅比范围更稳健、更“有效”,而且也更容易进行更广泛的统计操作。然而,范围在对数据的简单描述以及质量控制图表中仍然经常使用。
然而,一组数据的平均范围是一个非常有效的度量(统计量),可以用作计算s的简便方法。在这种情况下,我们将数据细分为几组,计算它们的平均范围,,并将其除以一个系数(来自表格),该系数取决于 n。例如,在化学实验室中,非常普遍的做法是对样本进行重复分析,因此他们拥有大量现成数据来计算s。
(要使用的系数 k 在标准差下给出)
例如:如果我们有一个大小为 40 的样本,我们可以将其分为 10 个 n=4 的子样本。如果我们然后发现它们的平均范围为 3.1,那么 40 个项目的母样本的标准差约为 3.1/2.059 = 1.506。
现在,随着简单的电子计算器的出现,它们可以通过按一个键直接计算s,因此不再需要这种权宜之计,尽管统计学学生应该熟悉它们。
{tBookCat}}