跳转到内容

描述性统计手册/引言

来自维基教科书,开放的世界,开放的书籍

分布是单个现象的一组测量值。如果响应数量很少,只需列出它们就足以描述。在这种情况下,不需要进行任何汇总或数据缩减。但是,如果测量值数量很多,完整列表可能无法作为通信或分析工具。

值得庆幸的是,分布可以被汇总。一些汇总非常简短,只提供少量描述。例如,平均值是一个单一数字汇总,它只捕获一组数字的一个方面。在汇总时,可能需要考虑分布的六个方面。

样本量

[编辑 | 编辑源代码]

被测对象的数量或项目的数量通常是最基本的需求。例如,我们可能正在研究大学生身高的分布,其中包含 1,234 个对象的测量值。

量表和精度

[编辑 | 编辑源代码]

你正在处理的数据类型(连续、分类、顺序等)会影响你对如何描述和分析数据的许多选择。测量单位(英寸、公斤、%、毫摩尔、每英亩玉米的德拉克马等)应予以注意。对于我们的示例,数据以英寸为单位记录,精确到 0.1 英寸。换句话说,测量值在记录之前四舍五入到最接近的十分之一英寸。对于分类数据,“量表”只是类别的名称。如果我们还记录了学生的性别,我们可能会有三个类别:“男性”、“女性”和“未知”。

集中趋势

[编辑 | 编辑源代码]

在量表上,数据大约位于哪里?理论上,成年人身高在无穷大范围内测量。但是,我们将观察到的多数测量值都集中在 68 英寸(5 英尺 8 英寸)左右。描述集中趋势的方法有很多种。对于连续数据,通常会计算平均值(或平均值)。但平均值有局限性,其他集中趋势度量也很有用:中位数、几何平均值、众数等。

离散程度

[编辑 | 编辑源代码]

集中趋势告诉你数据倾向于在哪里,但并非所有数据都具有相同的值。通常,一些数据会更高,一些数据会更低。大学生的身高在约 4 英尺(48 英寸)到约 7 英尺(84 英寸)之间。数据的离散程度可以用多种方式汇总:范围、方差、标准差、四分位间距等。

形状是分布中最丰富的一个方面,通常也是最难汇总的一个方面。对于许多测量值,大部分数据出现在中间,并且在更高和更低的值处观察到的值数量会逐渐减少。经典的正态分布就是这样一种分布:它呈“钟形”。如果数据范围内的所有值都以大约相同的频率出现,那么形状被称为“均匀”或“矩形”。如果所有数据都倾向于出现在范围的一端,而在另一端观察到的案例数量不断减少,则这种分布被称为“偏斜”。

有一些数值方法可以用来描述分布的形状。例如,可以计算并报告偏斜程度。但是,通常描述形状的最佳方法是绘制数据的图形,例如直方图。

异常值

[编辑 | 编辑源代码]

通常,少量观察值具有明显高于或低于大部分数据的数值。这些异常值有时会令人不安或困惑,但它们可能非常重要。汇总异常值的最佳方法通常只是分别记录它们或在图形描述中突出显示它们。

华夏公益教科书