统计/摘要/四分位数
数据集的四分位数是由中位数两侧的两个边界形成的,它们将数据集分成四个相等的部分。最低的 25% 的数据位于第一个四分位数值以下,也称为下四分位数 (Q1)。中位数或第二个四分位数将数据集分成两个相等的部分。最低的 75% 的数据集应该位于第三个四分位数以下,也称为上四分位数 (Q3)。这三个数字是数据离散程度的度量,而平均数、中位数和众数是集中趋势的度量。
给定集合 {1, 3, 5, 8, 9, 12, 24, 25, 28, 30, 41, 50},我们将找到第一个和第三个四分位数如下
该集合中有 12 个元素,所以 12/4 给我们集合的每个四分之一有三个元素。
因此第一个或最低的四分位数是:5,第二个四分位数是中位数12,第三个或最高的四分位数是28。
但是,有些人当遇到具有偶数元素(值)的集合时,仍然想要真正的中位数(或中间值),在中位数的两侧有相同数量的数据值(而不是 12,它有 5 个值小于它,6 个值大于它)。然后,该值是 12 和 24 的平均值,得出 18 作为真正中位数(它更接近平均值 19 2/3)。然后将相同的过程应用于较低的和较高的四分位数,得到6.5、18 和29。这只有在数据包含偶数个元素且有偶数个相等分割的部分,或者奇数个元素且有奇数个相等分割的部分时才是一个问题。
四分位间距是一个统计量,它提供有关数据集的扩展信息,并通过从第三个四分位数中减去第一个四分位数来计算,从而得到数据集中间一半的范围,修剪掉最低和最高的四分位数。由于 IQR 完全不受数据中异常值的影响,因此它是比范围更稳健的离散程度度量。
IQR = Q3 - Q1
另一个有用的分位数是五分位数,它将数据分成五个相等的部分。五分位数的优点是它有一个中心部分,它在中位数的两侧都有边界,可以用作平均组。在正态分布中,五分位数的边界在均值(或中位数)的两侧有±0.253*s 和±0.842*s 的边界,其中 s 是样本标准差。请注意,在正态分布中,均值、中位数和众数重合。
其他常用的分位数是十分位数(10 个相等的部分)和百分位数(100 个相等的部分)