跳转到内容

计量经济学理论/普通最小二乘法 (OLS)

来自维基教科书,开放的书籍,开放的世界

普通最小二乘法OLS 是线性回归中最简单(如果你能这样称呼它)的方法之一。OLS 的目标是将函数与数据紧密“拟合”。它是通过最小化数据中平方误差的总和来实现的。

为什么我们在求和之前对误差进行平方

[编辑 | 编辑源代码]

我们不是试图最小化误差的总和,而是最小化平方误差的总和。让我们再简要回顾一下我们的毛衣故事。

模型 A
模型 B
模型 数据点 来自线的误差
A 1 5
A 2 10
A 3 -5
A 4 -10
B 1 3
B 2 -3
B 3 3
B 4 -3

请注意,模型 A 的总和为 ,而模型 B 的总和为

这两个模型的误差总和都为 0。这是否意味着它们都非常适合!不!

因此,为了考虑符号,无论何时我们对误差求和,我们都会先对项进行平方。因此,正负偏差都受到同等的惩罚,同时试图最小化拟合线的误差。

这两个模型都有一个截距项 和一个斜率项 (一些教科书使用 而不是 而不是 ,当我们转向多元公式时,这是一种更好的方法)。我们可以用以下公式表示任意单变量模型: 根据这个公式,y 值与 x 值相关。 被称为因变量, 被称为自变量,因为 的值由 的值决定。我们使用下标 i 来表示一个观测值。所以 配对, 配对,等等。 项是误差项,它是 的影响和 的观测值之间的差异。

不幸的是,我们不知道 的值。我们必须对它们进行近似。我们可以使用普通最小二乘法来实现这一点。术语“最小二乘”意味着我们试图最小化平方和,或者更具体地说,我们试图最小化平方误差项。由于我们需要最小化的变量有两个(),我们有两个方程。



将这些方程的解称为 。解得


其中 。计算这些结果可以作为练习留给读者。

需要注意的是, 不同,因为它们是基于单个样本而不是整个总体得到的。如果你取不同的样本,你将得到不同的 的值。我们称 的 OLS 估计量。计量经济学的主要目标之一是分析这些估计量的质量,并观察在什么条件下这些是好的估计量,以及在什么条件下它们不是好的估计量。

一旦我们有了 ,我们可以构建另外两个变量。第一个是拟合值,或者说对 *y* 的估计

第二个是误差项的估计,我们将称之为 **残差**

这两个变量将在后面起到重要作用。

华夏公益教科书