跳至内容

计量经济学理论/经典正态线性回归模型 (CNLRM)

来自维基教科书,开放世界中的开放书籍

计量经济学研究的是因果关系。经济学充满了关于一件事如何导致另一件事的理论:价格上涨会导致需求下降,更好的教育会导致人们变得更富有,等等。因此,为了能够检验这些理论,经济学家会找到数据(例如,商品的价格和数量,或人口的教育水平和财富水平的数据)。但是,当这些数据被放在图表上时,它们很少形成出现在入门经济学教科书中的整齐的线条。

这是老忠实间歇泉喷发之间的等待时间与喷发持续时间之间的关系图,但也可能是一张毛衣销售供应线的图表

数据总是看起来像一团云,如果不使用恰当的技术,就无法确定这团云是否提供了任何有用的信息。计量经济学是一种使用收集到的数据点建立相关性,并有望在将来建立因果关系的工具。我们通过从数据中创建 **解释函数** 来实现这一点。该函数是一个线性模型,它是通过 *最小化* 数据到直线的平方距离来估计的。该距离被认为是 *误差项*。这就是 **线性回归** 的过程。

计量经济学的目的是建立两个变量之间的相关性,并有希望建立因果关系。最简单的方法是画一条线。直线的斜率将表明“如果我们将 x 增加这么多,那么 y 将增加这么多”,并且我们有一个截距,它告诉我们在 x = 0 时 y 的值。

直线的方程式是 y = a + b*x(注意:a 和 b 有不同的书写形式,例如 alpha 和 beta,或 beta(0) beta(1),但它们始终表示“截距”和“斜率”)。

问题在于开发一条适合我们数据的直线。由于我们的数据是分散的并且是非线性的,因此这条简单的直线不可能穿过每个数据点。因此,我们设置了一条直线,使其使误差最小化(实际上我们需要最小化平方误差)。我们调整第一条直线或 *解释函数*,使其包含一个误差项,这样,给定 x 和误差项,我们可以正确地得出正确的 y。

y = a + b*x + 误差

基本示例

[编辑 | 编辑源代码]

在我们把研究经费都花在度假之后,我们被大学施压,要求我们找到关于明尼苏达州毛衣行业走势的一些答案。我们没有太多时间,所以我们只收集了明尼苏达州两家不同服装店在两天内的数据。幸运的是,我们从夏季的一天和冬季的一天获得了数据。我们要求两家商店告诉我们他们卖出了多少件毛衣,他们告诉了我们真相。我们想看看天气(温度——自变量)如何影响毛衣的销量(因变量)。

我们得到了以下散点图。

现在我们可以添加一条线(一个函数)来告诉我们这两个变量之间的关系。我们将最小化误差的总和,然后看看我们得到了什么。从冷侧到直线的距离是 +15,从热侧到直线的距离是 -15。当我们把它们加在一起时,我们得到 15 - 15 = 0。0 误差,我们的直线一定很完美!

请注意,我们的直线很好地拟合了数据。数据和函数之间的差异均匀分布()。因此,温度和毛衣销售之间存在关系。“炎热天气增加了毛衣销售”将是我们那篇著名论文的标题!但它会是错误的,我们很可能会被大学解雇。

如果我们只最小化了直线和数据之间的绝对距离!好吧,这是一个带有估计直线的图表,它就是这么做的。为此,我们最小化 *平方* 误差的总和。

一旦我们最小化了直线和数据之间的绝对距离,我们就得到了更好的拟合,我们可以宣称“寒冷天气增加了毛衣销售”()

基本双变量模型

[编辑 | 编辑源代码]

我们的基本模型是一条最适合数据的直线。

其中 ,α 和 β 是必须估计的未知参数。 是不可观测的误差项。该项是一个 iid 随机变量。**回归系数**。

关于符号的说明:

符号 含义
Y 因变量
X 自变量(s)
α,β 回归系数
ε,u 误差或扰动项
^ 帽子:估计

误差项的性质

[编辑 | 编辑源代码]

误差项,也称为 **扰动项**,是不可观测的随机分量,它解释了 之间的差异。该项是四种不同效应的组合。

1. *遗漏变量:* 在许多情况下,很难解释系统中的所有变异性。寒冷天气增加了毛衣的销量,但取暖油的价格也可能产生影响。这在我们最初的模型中没有考虑,但可以在我们的误差项中解释。

2. 非线性:实际关系可能并非线性,但我们只有线性建模系统。在30度时,有10人购买毛衣;在20度时,有40人购买毛衣;在10度时,有80人购买毛衣。在我们的模型中,误差项并未考虑这种非线性。

3. 测量误差:有时数据收集并不完全准确。商店告诉我们那天有10人购买毛衣,但与他们交谈后,发现还有4人购买了毛衣。关系仍然存在,但在误差项中收集了一些误差。

4. 不可预测的影响:无论经济模型的制定多么完善,总会出现某种随机性影响它。这些影响将由误差项来解释。

再次看一下我们毛衣故事中的OLS线,我们可以看看我们的误差项。误差是指我们的数据Y和我们的估计值Ŷ之间的距离。我们由此得到一个方程:

下一页>

华夏公益教科书