计量经济学理论/虚拟变量

健康保险公司通常会对不同类型的人收取不同的费用。他们根据自己的数据了解到，年轻人通常不太需要去看医生，因此他们收取的保险费更低。他们的数据表明，年龄和医疗费用呈正相关，事实上，一个是另一个的“原因”。他们根据其他人口统计数据来组织其保险费率。其中一个是客户是否吸烟，有些甚至使用性别。但他们是如何得出吸烟者更贵的结论，或者说覆盖男性的成本与覆盖女性的不同？这些不是定量的资料，所以不能回归，对吧？不，我们可以让它们看起来像是定量的，而不是定性的。

虚拟变量

虚拟变量或指示变量是将这些定性数据点操作为定量数据点。在将医疗费用与吸烟习惯相关联的情况下，我们可以说吸烟者为1，非吸烟者为0。我们的因变量是医疗费用。

我们的模型将如下所示： $Y_{i}=\alpha +\beta D_{i}+\epsilon _{i}$ 其中 D 是我们的虚拟变量（吸烟），Y 是我们的因变量（医疗费用）。假设非吸烟者的医疗费用为 50 美元，吸烟者的医疗费用为 60 美元，那么我们的模型将是 $Y_{i}=50+10D+\epsilon _{i}$ 。当我们查看的是非吸烟者时，D = 0，当我们查看的是吸烟者时，D = 1。

我们也可以用多个信息（变量）进行回归。我们还可以将我们的正常数据与多个虚拟变量混合在一起。 $HealthCare_{i}=\beta _{1}age_{i}+\beta _{2}Smoke_{i}+\beta _{3}Gender_{i}+\epsilon _{i}$ （性别 = 1 为男性，性别 = 0 为女性）

我们根据数据得出的估计模型将是 $HealthCare_{i}={\hat {\beta _{0}}}age_{i}+{\hat {\beta _{1}}}Smoke_{i}+{\hat {\beta _{2}}}Gender_{i}+\epsilon _{i}$

一位 29 岁的男性非吸烟者的公式将是 $HealthCare_{i}={\hat {\beta _{0}}}29+{\hat {\beta _{2}}}+\epsilon$

我们的虚拟变量可以不仅仅是二元的。假设医疗保健公司发现幸福可以导致更高的健康水平，他们想将其用于价格歧视计划。他们可以问“你有多幸福？非常幸福，有点幸福，悲伤”。但是，他们需要使用两个虚拟变量来进行此操作。如果“非常幸福”，则 D1 为 1 且 D2 为 0，如果“有点幸福”，则 D1 为 0 且 D2 为 1，如果“悲伤”，则 D1 为 0 且 D2 为 0。

为了将此添加到我们的模型中，我们将有 $HealthCare_{i}={\hat {\beta _{0}}}age_{i}+{\hat {\beta _{1}}}Smoke_{i}+{\hat {\beta _{2}}}Gender_{i}+{\hat {\beta _{3}}}VeryHappy_{i}+{\hat {\beta _{4}}}KindOfHappy_{i}+\epsilon _{i}$

斜率与截距变化

虚拟变量可以通过两种方式影响模型。虚拟变量可以向上或向下移动截距，或使斜率变缓或变陡。上面描述的都是截距移动。对于非吸烟者，直线保持中立，对于吸烟者，直线上移。对于斜率移动，虚拟变量与标准变量处于同一项中，如 $Y_{i}=\alpha +\beta _{1}X_{i}+\beta _{2}D_{i}X_{i}+\epsilon$ ，其中如果 D = 1， $Y_{i}=\alpha +(\beta _{1}+\beta _{2})X_{i}+\epsilon$ ，如果 D = 0 $Y_{i}=\alpha +\beta _{1}X_{i}+\epsilon$

注意：在本例中，虚拟变量和标准变量的组合是交互项。它通常被描述为一个变量，如 $D_{i}X_{i}=Z_{i}$