统计/摘要/方差
在描述数据时,确定分布的扩展是有帮助的(在某些情况下是必要的)。测量这种扩展的一种方法是计算数据的方差或标准差。
在描述一个完整的总体时,数据代表了总体的所有元素。作为总体“扩展”的度量,人们想知道数据与总体平均值之间可能距离的度量。有几种方法可以做到这一点。一种方法是测量偏差的平均绝对值。另一种方法称为方差,测量这些偏差的平均平方。
应该区分处理总体或从总体中抽取的样本。当处理完整的总体时,(总体)方差是一个常数,一个参数,有助于描述总体。当处理从总体中抽取的样本时,(样本)方差实际上是一个随机变量,其值在样本之间不同。其值只对作为总体方差的估计值感兴趣。
假设总体由 N 个元素 x1,...,xN 组成。 (总体)平均值为
- .
(总体)方差 σ2 是从平均值或 (xi - μ)2 的平方偏差的平均值,即值与分布平均值的距离的平方。
- .
由于平方,方差不能直接与平均值和数据本身进行比较。方差的平方根称为标准差 σ。请注意,σ 是数据点与平均值之间差异的均方根。
假设样本由从总体中抽取的 n 个元素 x1,...,xn 组成。 (样本)平均值为
- .
样本平均值用作总体平均值 μ 的估计值。
(样本)方差 s2 是从(样本)平均值平方偏差的一种平均值
- .
同样对于样本,我们取平方根以获得(样本)标准差 s
此时一个常见的问题是“为什么我们对分子进行平方?”一个答案是:为了消除负号。数字将落在平均值之上和之下,由于方差正在寻找距离,如果这些距离相互抵消,这将是适得其反的。
当掷一个公平的骰子时,总体由 6 个可能的结果 1 到 6 组成。样本可能包含 1000 次掷骰子的结果。
总体平均值为
- ,
和总体方差
总体标准差是
- .
请注意,这个标准差介于可能的偏差之间。
因此,如果我们使用一个六面的骰子:X = {1, 2, 3, 4, 5, 6},那么 σ2 = 2.917。我们稍后会详细解释为什么这不同,但目前,请假设你应该使用样本方差的公式,除非你看到一些表明情况并非如此的内容。
请注意,以上公式在计算估计值时都不理想,它们都会引入舍入误差。专门的统计软件包使用更复杂的 对数方法,对数据进行第二次处理,以校正这些误差。因此,如果你的标准差估计必须准确,则应使用专门的软件。如果你使用的是非专门的软件,比如一些流行的电子表格软件,你应该了解软件如何进行计算,而不能仅仅假设已经实现了复杂的算法。
对于正态分布
[edit | edit source]经验法则指出,在一个正态分布的数据集中,大约 68% 的数据包含在平均值的标准差之内,大约 95% 的数据包含在 2 个标准差之内,大约 99.7% 的数据包含在 3 个标准差之内。
例如,SAT 的语文部分或数学部分平均值为 500,标准差为 100。这意味着 68% 的考生得分在 400 到 600 之间,95% 的考生得分在 300 到 700 之间,99.7% 的考生得分在 200 到 800 之间,假设完全正态分布(实际上并非如此,但这是一个很好的近似值)。
稳健估计量
[edit | edit source]对于正态分布,标准差与四分位间距的关系大约为:SD = IQR/1.35。
对于非正态数据,标准差可能是尺度的一个糟糕估计量。例如,在存在单个异常值的情况下,标准差可能会严重高估数据的可变性。结果是置信区间过宽,假设检验缺乏效力。在某些(或大多数)领域,数据很少是正态分布的,异常值很常见。
一个稳健的尺度估计量是“平均绝对偏差”,或称为aad。顾名思义,使用关于位置估计的绝对偏差的平均值。这种尺度估计方法的优点是异常值的贡献不会像在标准差中那样平方,因此异常值对估计值的贡献较小。这种方法的缺点是单个大的异常值可能会完全压倒尺度估计,并对数据的扩展给出误导性的描述。
另一个稳健的尺度估计量是“中位数绝对偏差”,或称为mad。顾名思义,估计值计算为相对于位置估计值的绝对偏差的中位数。通常,数据的中间值用作位置估计值,但这不是必需的。请注意,如果数据是非正态的,则平均值可能不是位置的良好估计值。
为了使这两个估计量与数据正态分布时的标准差相比较,必须对它们进行缩放。通常,aad 和mad 这两个术语用于指代缩放后的版本。很少使用未缩放的版本。