跳转到内容

统计学入门/回归

来自维基教科书,开放的书籍,开放的世界

回归分析是建立变量之间关系模型的过程,模型的形式是数学方程。总的目的是解释一个变量(因变量)如何系统地与一个或多个自变量的值相关联。自变量之所以被称为自变量,是因为我们认为它的值在其范围内自由变化,而因变量则依赖于自变量取的值。数学函数用一组参数表示,这些参数是方程的系数,自变量的值。系数是数字常数,通过这些常数,方程中的变量值相乘,或将这些常数加到变量值中以确定未知数。一个简单的例子是直线的方程

这里,按照惯例,xy 是我们数据中感兴趣的变量,y 是未知的或因变量,x 是已知的或自变量。常数 m 是直线的斜率,by 轴截距 - 直线与 y 轴相交的值。因此,mb 是方程的系数。

如果我们可以建立一个已知数据的稳健回归模型,那么我们可以使用该方程来预测未观察到的案例的值。回归还涉及估计因变量和自变量之间关联的强度,最常见的是通过计算相关系数,如上所述,相关系数本身是数据线性模型的一部分。相关系数在回归分析报告中被平方,我们将其称为 R 平方,这可能相当明显。

模型通常只是近似地类似于观察到的数据。最常见的情况是,数据中的一些误差将意味着没有任何数学函数能精确地产生观察到的数据,并且仅产生这些数据。因此,我们明确地参与估计,我们的模型涉及对误差的识别。正是出于这个原因,直线的方程通常写成

其中 ε 量化了我们数据中的 误差

线性回归

[编辑 | 编辑源代码]

在线性回归中,模型由线性方程组成。线性方程是仅包含常数或单个变量值乘以常数的方程。线性方程中的变量值必须是一次方,即它们不能包含将值提高到除 1 之外的任何幂 - 例如,它们不能被平方或立方。任何值提高到一次方都是原始值:x1=x

要进行线性回归,首先要绘制数据的散点图。

让我们再次看一下以下关于婴儿身高与年龄的测量结果

年龄(月) 身高(厘米)
0 53.0
3 59.5
6 66.0
9 71.5
12 76.0
18 85.0
24 90.0

这些数据可以在此散点图中可视化

Add caption here
在此添加标题


1 简介

2 统计指标

3 参数方法和非参数方法

4 描述性统计

5 推论统计:假设检验

6 自由度

7 显著性

8 关联

9 比较组或变量

10 回归

华夏公益教科书