跳转到内容

统计学基础/统计量度

来自维基教科书,开放的书籍,开放的世界

统计量度

[编辑 | 编辑源代码]

统计数据被分配到四个测量级别之一:名义、顺序、区间比率。这是一种简短的说法,表明数据可以在数学上以不同的方式处理。下面我简要概述了这些级别,并提供了诊断以及每个级别的常用程序的指示。

在决定如何分析数据之前,需要确定数据的测量级别。一旦知道数据属于哪个测量级别,就可以大大减少可用的假设检验程序的数量 - 因此,关于如何处理数据的决定变得更加简单。选择合适的统计检验的第一步是确定检验变量的正确统计量度。

我在这里强调中心趋势的指标,因为它经常是检验的目标。当有人想要“比较两个群体”时,他们通常意味着他们想要比较一个群体的典型测量值与另一个群体的典型测量值,而一个常见的典型测量值是中心趋势,例如平均分数。对于每个数据级别,平均的含义都是不同的。

如果用来记录观察值的数字实际上代表名称,我们就称这些数据为名义数据。例如,考虑对问题“你吸烟吗?”的回答。对这个问题的回答可能是0,表示,或者1,表示。数据是名义的,但用数字编码。再举一个例子,考虑眼睛颜色。我们可以决定根据以下方案对样本中每个人的眼睛颜色进行分类

眼睛颜色 数字代码
棕色 1
蓝色 2
绿色 3
灰色 4
其他 5

类别和数字的配对是任意的。这里的数字代表颜色的名称。

常用分析技术

[编辑 | 编辑源代码]

因为这些数据是名义的,所以只允许一个数学程序:计数。我们可以计算每个数字出现的次数并记录总数。这些被称为频率。在分析多个名义变量时,最常见的做法是交叉制表,以调查变量之间的关联 - 例如,我们可以确定眼睛颜色是否与性别相关联或独立。对于二维表,可以使用皮尔森卡方检验来检验假设,而对于大于二维的表,可以使用似然比卡方检验。

典型的指示
[编辑 | 编辑源代码]

在名义数据的情况下,收集数据的中心点的度量是众数

如果我们可以对数据项进行排名,那么我们就有顺序数据。因此,如果在比赛中我们将第一名分配给数字 1,第一名亚军分配给数字 2,第二名亚军分配给数字 3,那么这些数字代表顺序数据。我们可以像顺序数据一样计数和总计以获得每个数字的频率,但我们也可以有意义地对结果进行排序。顺序数据的间隔没有规律。看看李克特量表。

强烈同意 同意 既不同意也不反对 不同意 强烈不同意
1 2 3 4 5

我们可以按照数字代码建议的顺序排列响应,但我们不假设从12的距离与从45的距离相同。

常用分析技术

[编辑 | 编辑源代码]

顺序数据可以进行交叉制表,并且可以使用非参数相关性度量(如斯皮尔曼秩相关系数或肯德尔等级相关系数)来检验关联强度。顺序数据也可以进行交叉制表,并且可以使用卡方检验来确定顺序变量之间是否存在关联,但这当然会忽略变量中的排名信息,将其视为纯粹的分类数据。

如果我们有一个分组受试者或案例的分类变量,那么我们可以比较不同组的排名。对于两个组,我们可以使用曼-惠特尼 U 检验,对于两个以上组,我们可以使用克鲁斯卡尔-沃利斯检验。同样,我们可以使用威尔科克森检验对一个组的两个变量进行检验。

标量变量

[编辑 | 编辑源代码]

因为对于许多统计目的(以及被认为不常见的例外情况),比率区间数据通常被视为一样,所以两者通常被称为标量。最主要的例外是变异系数,它只应该用于比率数据。有时会使用连续一词来包含区间和比率数据。严格地说,连续变量是指在其实际范围内任何值都可能的变量。为了增加术语上的混乱,有时使用数字变量来表示取数字值的变量,包括顺序数据,这等同于使用标量变量。

区间数据位于一条编号线上,其中每个点之间的距离是有意义的且规律的:如果 20 和 30 之间有十个点差,那么 40 和 50 之间也有相同的距离。区间尺度上的零点是任意的。一个简单的例子是摄氏温度尺度。在这个尺度上,零被任意定义为水的冰点,100 为水的沸点。这些之间的间隔由校准确定(例如,在汞柱上绘制等距的标记)。你可以有一个低于零的读数。

在比率数据的情况下,测量尺度具有规律的间隔;有一个真正的零点;尺度上的值可以表示为两个其他值的比率。考虑以米为单位的高度:十米和二十米之间的距离与四十米和五十米之间的距离相同;零表示没有高度;如果有人身高两米,那么他们的身高是身高一米的人的两倍。

常用分析技术

[编辑 | 编辑源代码]

对于标量变量,常见的描述性统计量都是可计算的,例如集中趋势的度量(平均值、中位数和众数)、离散程度的度量(方差、标准差、极差、四分位数)、形状的度量(偏度和峰度)。标量变量之间的关联可以通过相关性(皮尔逊相关系数)来确定,如果它们满足特定条件,则可以通过回归分析进一步研究。常用的假设检验,如学生t检验(用于两个标量变量或两组样本)或方差分析(用于超过两组样本或变量),用于确定平均值是否相等或不相等。回归分析通常用于通过数学方程来模拟两个或多个标量变量之间的关系。


1 简介

2 统计量

3 参数方法和非参数方法

4 描述性统计

5 推论统计:假设检验

6 自由度

7 显著性

8 关联

9 比较组或变量

10 回归

华夏公益教科书