计量经济学理论/普通最小二乘法 (OLS)
普通最小二乘法 或 OLS 是线性回归中最简单(如果你能这样称呼它)的方法之一。OLS 的目标是将函数与数据紧密“拟合”。它是通过最小化数据中平方误差的总和来实现的。
我们不是试图最小化误差的总和,而是最小化平方误差的总和。让我们再简要回顾一下我们的毛衣故事。
模型 | 数据点 | 来自线的误差 |
---|---|---|
A | 1 | 5 |
A | 2 | 10 |
A | 3 | -5 |
A | 4 | -10 |
B | 1 | 3 |
B | 2 | -3 |
B | 3 | 3 |
B | 4 | -3 |
请注意,模型 A 的总和为 ,而模型 B 的总和为
这两个模型的误差总和都为 0。这是否意味着它们都非常适合!不!
因此,为了考虑符号,无论何时我们对误差求和,我们都会先对项进行平方。因此,正负偏差都受到同等的惩罚,同时试图最小化拟合线的误差。
这两个模型都有一个截距项 和一个斜率项 (一些教科书使用 而不是 和 而不是 ,当我们转向多元公式时,这是一种更好的方法)。我们可以用以下公式表示任意单变量模型: 根据这个公式,y 值与 x 值相关。 被称为因变量, 被称为自变量,因为 的值由 的值决定。我们使用下标 i 来表示一个观测值。所以 与 配对, 与 配对,等等。 项是误差项,它是 的影响和 的观测值之间的差异。
不幸的是,我们不知道 或 的值。我们必须对它们进行近似。我们可以使用普通最小二乘法来实现这一点。术语“最小二乘”意味着我们试图最小化平方和,或者更具体地说,我们试图最小化平方误差项。由于我们需要最小化的变量有两个( 和 ),我们有两个方程。
将这些方程的解称为 和 。解得
其中 和 。计算这些结果可以作为练习留给读者。
需要注意的是, 和 与 和 不同,因为它们是基于单个样本而不是整个总体得到的。如果你取不同的样本,你将得到不同的 和 的值。我们称 和 为 和 的 OLS 估计量。计量经济学的主要目标之一是分析这些估计量的质量,并观察在什么条件下这些是好的估计量,以及在什么条件下它们不是好的估计量。
一旦我们有了 和 ,我们可以构建另外两个变量。第一个是拟合值,或者说对 *y* 的估计
第二个是误差项的估计,我们将称之为 **残差**
这两个变量将在后面起到重要作用。