统计学入门/描述性统计
描述性统计总结了数据集的定量特征。它们用于描述数据,以说明某种现象在观察到的案例中是如何出现的。描述性统计回答了诸如“有多少比例的案例是蓝眼睛?”或“观察到的案例的典型家庭收入是多少?”之类的疑问。在计算描述性统计时,我们不打算从收集的数据中推断到观察到的案例之外的任何更大的总体。
在“描述性统计”中,我将给出“总体参数”的公式,除非另有说明。总体参数用于在收集所有正在调查的案例的数据时使用,并在计算中使用。如果数据集是“抽样”(可能是通过收集一些代表性案例的数据),那么将使用“样本统计量”。参数和统计量不同,对于参数,平均值是根据“数据集中所有案例的总数(N)”计算的,并且这个“总体平均值”用于进一步的计算或参数。对于样本统计量,平均值是根据“案例总数减一(N-1)”计算的,并且这个“样本平均值”用于计算进一步的统计量。因此,样本统计量近似于样本的大小效应,因为随着N的增加(接近总体的大小),样本和总体之间的差异会减小。对于少量案例,从N中减去一个会产生很大的影响;对于大量案例,从N中减去一个会产生更小的影响。
可以为名义变量、序数变量和连续变量计算频率,尽管意义略有不同。对于离散(即名义或序数)变量,频率是数据中某个级别实例的计数。对于连续变量,通常将观察到的值“分箱”到具有特定宽度的组中(例如,一个箱子可能包含 0 到 5 之间的分数,下一个包含 6 到 10 之间的分数,等等)。
如果我们想象一所学校的学生班级和考试成绩,我们知道一些学生可能会得到 50/100 的分数,另外一些学生会得到 65/100 的分数,等等。每个级别得分的人数就是该分数的频率。如果我们记录这些频率,我们就有了该变量的频率分布。我们可以将频率制成数据计数、百分比和累计百分比的表格。
下表制成了“年龄”数据的表格。对于数据中遇到的每个年龄(四舍五入到最接近的年份),计算频率并记录绝对值,并计算百分比。
年龄 | 频率 | 百分比 | 有效百分比 | 累计百分比 |
10.00 | 5 | 17.9 | 17.9 | 0 + 17.9=17.9 |
11.00 | 10 | 35.7 | 35.7 | 17.9+35.7=53.6 |
12.00 | 10 | 35.7 | 35.7 | 53.6+35.7=89.3 |
13.00 | 3 | 10.7 | 10.7 | 89.3+10.7=100.0 |
总数 | 28 | 100.0 | 100.0 |
在本例中,“有效百分比”列与“百分比”列相同,因为没有缺失数据,即“年龄”未知的案例。
我们可以通过“交叉表”来描述两个类别变量(即名义和序数)的交集。在这里,我将 76 名学生的“眼睛颜色”与“性别”进行交叉表,性别均等分配。在本例中,有两列和五行:这是一个 2×5 的表格。哪一个变量放在行中或哪一个变量放在列中并不重要。
交叉表:眼睛颜色×性别 | ||||
性别 | ||||
女 | 男 | |||
眼睛颜色 | 蓝色 | 6 | 6 | |
棕色 | 12 | 12 | ||
绿色 | 7 | 7 | ||
灰色 | 4 | 6 | ||
其他 | 9 | 7 | ||
总数 | 38 | 38 |
表格中的每个单元格都包含观察到的每种性别有多少学生拥有相同的眼睛颜色。因此,六名男学生拥有棕色眼睛,四名女学生拥有灰色眼睛,等等。这些是这些变量交叉表中的“观察计数”。稍后我们将看到,这些可以与概率预测的“预期计数”进行比较。
对数值数据的常见总结是数据的“中心点”或“中间”位置。该点被视为对“该变量的最典型值是什么?”问题的指示性答案。有多种方法可以确定中心。我将在下面解释三种最常见的“集中趋势”度量。
众数是数据集中出现频率最高的数值。如果我们逐一查看观察值,并对每个特定分数的每次出现进行一次标记,我们就能得到数据的频率计数。众数就是频率计数最高的数值。我们不能保证只有一个众数,所以有时我们会听到数据被描述为双峰或多峰。
众数是集中趋势度量中最不强大的,因为它只利用了数据中的极少信息。
众数是唯一可以为名义数据计算的集中趋势度量。它也可以为序数数据计算。
众数通常用直方图来可视化。
假设我们统计了一个小学生班级的年龄(四舍五入到最接近的整年),并得到以下结果
年龄(年) | 出现频率 |
---|---|
10 | 5 |
11 | 10 |
12 | 10 |
13 | 3 |
这里有两个众数:11 岁和 12 岁。这是一个双峰分布的得分。
这是一个数据的直方图
中位数是数据集中间的得分。得分应该按顺序排列,然后如果案例数是奇数,中位数就是中间排序的得分。如果数字是偶数,那么将两个中间值相加并除以 2 来计算中位数。
中位数比众数利用了更多关于数据的的信息,因为数据是按顺序排列的,并且是集中趋势的更强大的表达。
中位数可以为序数、区间和比率数据计算。
考虑上表中的数据。数据中存在四个值:10、11、12、13。这是一个偶数,所以我们取中间两个值,加起来除以二。结果为11.5岁,即中位数。
这里,我将平均数定义为算术平均数或平均值,忽略几何平均数和调和平均数等。
平均数的计算方法是将一个变量的所有得分加起来除以样本数量。平均数是中心趋势的最强指标,利用了数据中的大部分信息。公式通常写成
平均数只能用于间隔数据和比率数据。[1]
考虑上表中的数据。数据中存在四个值:10、11、12、13。该班级年龄之和为319。总样本数为28,即N = 28。所以我们用28除以319,得到平均年龄:11.39岁。
离散度是指数据集中的值分布的程度。变异是统计思维的核心。我将介绍一些关于值离散度的主要指标。
离散度在描述性统计中很重要,因为两个群体或两个变量可能具有相似的平均数、中位数或众数,但离散度却相差很大。例如,孟买和洛杉矶的平均收入可能相同(我不知道,我没有查过),但你不会惊讶地发现这两个城市人口的收入分布差异很大。
数据集的极差是指一个变量的最高观察值与最低观察值之间的距离。
考虑上表中的数据。数据中存在四个值:10、11、12、13。年龄的最大值为13,最小值为10。因此,极差为13 -10,即3。
四分位数是数据中的三个点,将样本划分为相等的四部分。其中一个四分位数点是中位数,即第二四分位数。第一四分位数将数据集中最低的25%截断,第三四分位数将数据集中最高的25%截断。
四分位距(IQR)定义为第三四分位数减去第一四分位数。这是衡量中位数周围的值分布的一个稳健指标。离群值的一种描述将其定义为一个点超过四分位距边界1.5倍四分位距的点。离群值被理解为一个极端的值,不具有典型性。
考虑以下数据,包括32名学生在数学考试中的得分。表格显示频率计数和累积百分比。
考试得分 | 计数 | 累计百分比 |
---|---|---|
39 | 1 | 3.125 |
42 | 1 | 6.250 |
44 | 1 | 9.375 |
45 | 1 | 12.500 |
47 | 1 | 15.625 |
48 | 1 | 18.750 |
50 | 3 | 28.125 |
51 | 1 | 31.250 |
52 | 3 | 40.625 |
53 | 2 | 46.875 |
54 | 1 | 50.000 |
55 | 2 | 56.250 |
56 | 3 | 65.625 |
57 | 1 | 68.750 |
58 | 2 | 75.000 |
59 | 1 | 78.125 |
60 | 2 | 84.375 |
62 | 2 | 90.625 |
63 | 1 | 93.750 |
64 | 2 | 100.00 |
总数 | 32 | 100 |
中位数得分是54.5。四分位数是
四分位数 | 得分 |
---|---|
第一(最低25%) | 50 |
第二(到中位数) | 54.5 |
第三(到75%) | 58.5 |
因此,四分位距是58.5 - 50 = 8.5。这可以用箱线图来表示
四分位距用阴影框表示,框中有一条线表示中位数的位置。还显示了最小值和最大值,用“须”表示。在这个箱线图中,“须”表示实际的最小值和最大值。有些图表示四分位距 ± 1.5(四分位距),而不是最小值和最大值。
偏差是指观察到的得分与所考虑变量的预期值(或者可能是与某个理想值的距离)之间的距离(在这种情况下,我们通常将偏差称为误差)。对于连续变量,预期值为平均数。
考虑上表中的数据。数据中存在四个值:10、11、12、13。平均年龄是11.39岁。要计算一个得分(例如13)相对于平均数的偏差,我们用11.39减去13,得到1.61。我们注意到偏差可以是正距离或负距离。因此,对于一个得分11岁的样本,我们计算出相对于平均数的偏差为-0.39岁。
对数据集中相对于平均数的平均偏差进行特征描述将是有用的,但我们会发现,最初处理相对于平均数的平方平均偏差会更容易。
方差是数据集的平均平方偏差。如果我们记得方差是一个平均数,那么这个定义就很容易理解了。总体方差的公式为
该公式的上半部分是平方和。平方和除以样本数量就是方差。它是数据集中的一个得分相对于该变量平均值的平均距离。
考虑以下一组值 {1, 2, 3, 4, 5, 6, 7, 8, 9, 10}。这组值的平均数为 5.5:如果我们对偏差求和,结果为零。为了避免尝试将零除以 *N*,我们对偏差进行平方操作。因此,表格如下所示:
值 | 偏差 | 偏差的平方 |
---|---|---|
1 | -4.5 | 20.25 |
2 | -3.5 | 12.25 |
3 | -2.5 | 6.25 |
4 | -1.5 | 2.25 |
5 | -0.5 | 0.25 |
6 | 0.5 | 0.25 |
7 | 1.5 | 2.25 |
8 | 2.5 | 6.25 |
9 | 3.5 | 12.25 |
10 | 4.5 | 20.25 |
平方和 | 82.50 |
在进行平方运算后,我们得到一个偏差平方和的值,我们可以将它除以 N 来得到方差。由于 N 为 10,方差为 8.25。
这个度量,即方差,是我们数据中离散度的非常有用的总结统计量。此外,方差在统计思维中起着核心作用。许多常见的统计技术涉及计算和比较样本、总体或变量之间的方差。然而,它有一个缺点:假设原始变量代表以米为单位的高度,则方差现在以平方米为单位表示。我们已将线性度量转换为面积度量,即几何度量。对偏差进行平方可以避免出现零结果,但最终结果以不同于原始值的单位表示。解决方案在于推导出标准差。
标准差的计算方法很简单,即方差的平方根。因此公式可以写成
这个量现在与原始值的单位相同,克服了对解释方差的限制。
非正式地,我们可能会说,对于随机分布的变量,观测值通常在平均值的正负一个或两个标准差内,我们将看到我们可以在下面更精确地描述这一点。
偏度告诉您值的分布在多大程度上围绕平均值对称。如果值的分布围绕平均值对称,则偏度为零。正态或高斯分布看起来像这样
值的这种分布可以用标准差来表示。大约 68% 的值落在平均值正负一个标准差范围内。大约 96% 的值落在平均值正负两个标准差范围内。数据集中一小部分的值超过平均值正负两个标准差。此外,在正态分布中,中位数和平均数的值将非常接近,实际上,对于理想的正态分布,平均数 = 中位数 = 众数。
分布可能出现偏斜,向左有长尾 - *负偏度*;或向右有长尾 - *正偏度*。
峰度是指数据的尾部。具有高峰度的分布具有比正态分布尾部更极端(更重)的尾部(偶尔出现的极端值)。下图中的红线 *D* 显示了这样的分布,但高峰度通常并不对应于这样尖锐的峰值。具有低峰度的分布具有比正态分布尾部更不极端(更轻)的尾部。下图中的蓝线 *W* 是这种分布的示例,但低峰度通常不会告诉您有关峰值的信息(beta(.5,10) 是具有无限尖锐峰值的无限尖锐分布的示例)。正态分布(黑线,*N*)的峰度为零。
在具有高峰度的数据集中,长尾意味着数据中的大部分可变性是由于该变量相对于平均值的相对不频繁的极端偏差造成的。在具有低峰度的数据集中,数据中的大部分可变性是由于中等但频繁的偏差造成的。
以下图形说明了一些知名分布的峰度。但是请注意,在这样的密度图中,尾部不容易看到:即使分布具有“肥尾”,尾部仍然接近于零,不易比较。因此,很难从这些图形中辨别峰度。直观地观察尾部相对于正态分布(即峰度)的更好方法是使用正态分位数-分位数图。
4 描述性统计