健康保险公司通常会对不同类型的人收取不同的费用。他们根据自己的数据了解到,年轻人通常不太需要去看医生,因此他们收取的保险费更低。他们的数据表明,年龄和医疗费用呈正相关,事实上,一个是另一个的“原因”。他们根据其他人口统计数据来组织其保险费率。其中一个是客户是否吸烟,有些甚至使用性别。但他们是如何得出吸烟者更贵的结论,或者说覆盖男性的成本与覆盖女性的不同?这些不是定量的资料,所以不能回归,对吧?不,我们可以让它们看起来像是定量的,而不是定性的。
虚拟变量或指示变量是将这些定性数据点操作为定量数据点。在将医疗费用与吸烟习惯相关联的情况下,我们可以说吸烟者为1,非吸烟者为0。我们的因变量是医疗费用。
我们的模型将如下所示: 其中 D 是我们的虚拟变量(吸烟),Y 是我们的因变量(医疗费用)。假设非吸烟者的医疗费用为 50 美元,吸烟者的医疗费用为 60 美元,那么我们的模型将是 。当我们查看的是非吸烟者时,D = 0,当我们查看的是吸烟者时,D = 1。
我们也可以用多个信息(变量)进行回归。我们还可以将我们的正常数据与多个虚拟变量混合在一起。 (性别 = 1 为男性,性别 = 0 为女性)
我们根据数据得出的估计模型将是
一位 29 岁的男性非吸烟者的公式将是
我们的虚拟变量可以不仅仅是二元的。假设医疗保健公司发现幸福可以导致更高的健康水平,他们想将其用于价格歧视计划。他们可以问“你有多幸福?非常幸福,有点幸福,悲伤”。但是,他们需要使用两个虚拟变量来进行此操作。如果“非常幸福”,则 D1 为 1 且 D2 为 0,如果“有点幸福”,则 D1 为 0 且 D2 为 1,如果“悲伤”,则 D1 为 0 且 D2 为 0。
为了将此添加到我们的模型中,我们将有
虚拟变量可以通过两种方式影响模型。虚拟变量可以向上或向下移动截距,或使斜率变缓或变陡。上面描述的都是截距移动。对于非吸烟者,直线保持中立,对于吸烟者,直线上移。对于斜率移动,虚拟变量与标准变量处于同一项中,如 ,其中如果 D = 1,,如果 D = 0
注意:在本例中,虚拟变量和标准变量的组合是交互项。它通常被描述为一个变量,如