社会统计学,第 3 章:使用回归进行预测
全球变暖是 21 世纪世界面临的最大威胁之一。气候科学家现在已经完全确定全球变暖正在发生,并且与人类活动有关。全球变暖最明显的原因是化石燃料消耗(尽管还有许多其他原因)。化石燃料是指数百万年前埋在地球表面的煤炭、石油和天然气等矿物。在地球漫长的历史中,大量的碳通过自然过程从大气中去除并沉积在地下,成为矿物。然后,从 1800 年代开始真正开始,到 1900 年代到今天,我们开始挖掘和抽取这些矿物,在我们的家中、发电厂和汽车中燃烧。每当我们燃烧这些碳矿物时,我们就会将二氧化碳 (CO2) 释放到大气中,从而导致全球变暖。全球变暖可能看起来是物理学家研究的话题,但实际上它是一个社会科学话题。物理学家已经告诉我们如何阻止全球变暖:如果我们只是停止燃烧化石燃料,地球就会停止变暖,最终恢复正常。问题是人们不想停止燃烧化石燃料。改变人们的态度和行为是一个社会科学问题。图 3-1 是来自世界银行数据库“世界发展指标”(WDI)的数据摘录。WDI 数据库中的案例是国家。数据库的列包括两个元数据项(世界银行国家代码和国家名称)。还包括三个变量:CO2——国家人均排放的二氧化碳公吨GNP——国家的人均国内生产总值,衡量平均国民收入CARS——国家每 1000 居民的乘用车数量。没有数据的国家被排除在外。例如,WDI 数据库没有包含加拿大乘用车数据,因此加拿大未包含在图 3-1 或以下分析中。数据缺乏是该数据库仅包含全球 200 多个国家中 51 个国家的数据的原因。
据推测,汽车越多的国家燃烧的汽油也越多。如果是这样,我们可能假设一个国家的汽车数量与其二氧化碳排放量呈正相关。图 3-2 显示了图 3-1 中 51 个国家/地区的二氧化碳排放量(因变量)与乘用车(自变量)的散点图。线性回归模型已被用于在数据中放置趋势线。虽然趋势线周围有很多回归误差,但该线的斜率绝对为正。对于一个国家每增加 100 辆汽车,二氧化碳排放量的预期值就会上升 1.25 吨/人。换句话说,回归线的斜率为 1.25 / 100 = .0125。这倾向于支持汽车数量与二氧化碳排放量呈正相关的假设。
图 3-2 中的两个异常值是美国和澳大利亚。两者的碳排放量远高于其汽车数量所预期的水平。对于美国,这种脱节有一个简单的解释:许多美国人不开汽车。他们驾驶卡车和 SUV。这些车辆未包含在世界银行的“乘用车”数据中,但它们肯定燃烧汽油并产生二氧化碳——而且很多。对于澳大利亚,解释更为复杂,但澳大利亚高水平的二氧化碳排放量部分归因于对燃煤发电的严重依赖。其他偏离其预期碳排放水平的国家/地区(新加坡、哈萨克斯坦)也有自己的故事。然而,总的来说,当国家/地区的汽车越来越多时,它们更有可能排放更多的二氧化碳。该结果是稳健的:移除澳大利亚、美国、新加坡或哈萨克斯坦对回归线的斜率几乎没有影响。图 3-2 的一个有趣特点是当一个国家没有汽车时的二氧化碳排放量的预期值。这可以通过在乘用车轴上找到零,然后向上读取图表,直到碰到回归线来确定。根据回归线,当汽车数量为零时,碳排放量的预期水平约为每人 3 吨。这意味着即使我们完全放弃驾驶,我们仍然会面临全球变暖的问题。原因是除了汽车之外,还有许多其他碳排放来源。我们在发电厂燃烧煤炭来发电。我们燃烧天然气来加热我们的房屋。即使没有汽车,我们仍然会有船舶、火车和飞机燃烧石油。解决全球变暖将非常困难。解决全球变暖的第一步可能是放弃驾驶汽车。放弃汽车并非易事。汽车无处不在,我们大多数人每天都开车。在过去 50 年中,美国、加拿大和澳大利亚等国家/地区围绕汽车重新构建了自身。今天,没有汽车就很难去任何地方。图 3-2 中的结果表明,我们至少应该从减少驾驶开始解决全球变暖问题。减少汽车将大幅减少排放,即使它不会减少到零。关于我们改变生活方式会发生什么情况的预测可以帮助我们决定要进行哪些类型的改变。制定应对全球变暖等问题的社会政策需要我们做出类似的预测。社会科学家试图回答关于根据我们今天制定的政策,世界在未来将如何变化的问题。回归模型可以帮助我们回答类似的社会政策问题。回归模型还可以用来预测人们的收入和投票行为等。简单的散点图可能有助于我们了解两个变量之间关系的整体形状,但回归模型在使我们能够做出具体预测方面走得更远。
本章重点介绍如何使用线性回归模型对因变量的值进行预测。首先,与任何回归线一样,线性回归线也有斜率和截距(第 3.1 节)。斜率在第 2 章中已经介绍过,但截距也为线条添加了重要的信息。其次,回归斜率和截距都是计算因变量的预期值所必需的(第 3.2 节)。预期值可用于对因变量进行预测。第三,预期值可用于预测因变量的值,即使某些情况下这些变量的数据缺失(第 3.3 节)。正如预期的那样,在先前经验范围内做出的预测往往比对以前从未观察过的事件做出的预测更好。可选部分(第 3.4 节)介绍了如何使用回归预测比较社会中的不同群体。最后,本章以美国 50 个州在 2008 年选举中人口种族构成与总统投票模式之间关系的应用案例研究结束(第 3.5 节)。本案例研究说明了如何根据斜率和截距绘制回归线,如何计算因变量的预期值,以及变量的平均水平如何取决于其他变量的值。本章所有关键概念都应用于本案例研究。在本节结束时,您应该能够利用回归模型的结果来了解社会科学家感兴趣的现实世界结果的决定因素。
3.1. 斜率和截距 回归线的最重要的特征通常是它的斜率。然而,在许多情况下,我们也想知道当自变量等于零时回归线的数值。在类似图 3-2 和图 3-3 的散点图中,自变量在回归线与因变量轴相交的点处等于零。截距是回归线在散点图中与因变量轴相交的地方。截距可以提供有意义的信息来解释关系,就像在图 3-2 和图 3-3 中一样,但它们本身也很有用。如果你知道回归线的斜率和截距,你就可以画出整条线以及它上面的每一个点。图 3-3 说明了使用斜率和截距来画回归线。图 3-3 显示了连接乘用车和图 3-2 中的碳排放的回归线,但实际数据点已被隐藏,只显示了这条线。线的斜率是 0.0125,这意味着每增加 100 辆车,人均排放量就会增加 1.25 吨。截距约为 3。为了使所有计算简单,我们将假设它正好为 3.00。从这个 3.00 的回归截距开始,每增加 100 辆车,碳排放量就会增加 1.25。所以前 100 辆车导致碳排放量为 3.00 + 1.25 = 4.25 吨/人。在这些基础上再增加 100 辆车,导致碳排放量为 4.25 + 1.25 = 5.50 吨/人,依此类推。从 0 辆车和 3.00 吨碳的截距开始,我们可以使用斜率逐点画出整个回归线。
与在散点图上绘制整个线相比,仅给出回归线的斜率和截距所占的空间要小得多。图 3-2 和图 3-3 中绘制的回归模型在图 3-4 中的表格中进行了汇总。在典型的回归表中,自变量列在第一列,回归系数列在后面的列中。回归系数是定义回归线的斜率和截距。在图 3-4 中,只有一个回归模型(模型 1),它只有两个系数(一个截距和一个斜率)。截距 (3.00) 列在名为 “[Constant]” 的条目旁边。截距用括号中的 “[Constant]” 表示,因为虽然它包含在变量列表中,但它实际上并不是一个变量。社会科学家可互换地使用“常数”和“截距”这两个术语。
与自变量“Cars” (0.0125) 相关的斜率列在“Cars” 条目旁边。如果有更多自变量,它们将列在其他行中。类似地,如果有更多回归模型,它们将列在其他列中。回归表特别适合同时报告多个回归模型的结果。在第 2 章中,对澳大利亚人感到在晚上独自步行不安全的百分比进行了回归分析,分析的对象是州犯罪率(图 2-2)和个人暴力经历(图 2-4)。与使用散点图相比,这两个回归分析的结果可以在一个表格中简洁地总结,如表 3-5 所示。所有与这两个模型相关的系数都在此表格中报告。
表 3-5 显示,在图 2-2 中,截距为 8.34,斜率为 3.20,而在图 2-4 中,截距为 3.39,斜率为 1.37。仅凭这些信息,就可以绘制出这两幅图中的回归线。这些信息还包含了这两条回归线的大部分重要事实。例如,我们知道,即使一个州的犯罪率为零,我们仍然预计该州 8.34% 的人会感到在晚上独自步行不安全。类似地,即使一个州的任何人都没有亲身经历过暴力,我们仍然预计该州 3.39% 的人会感到在晚上独自步行不安全。由于两个斜率都是正数,我们知道,实际犯罪和人们的暴力经历都会让他们在晚上独自外出时感到更加不安全。要查看与这两个回归模型相关的回归误差和离群值,我们需要散点图,但系数表给了我们模型本身的基础知识。
3.2. 计算期望值 包含斜率和截距的回归系数表也可以用来计算期望值。这并不令人惊讶,因为斜率和截距用来绘制回归线,而期望值只是回归线上的值。回到乘用车和二氧化碳排放量之间的关系,斜率为 0.0125,截距为 3.00(图 3-4)。斜率和截距定义了回归线:当乘用车数量为 0 时,这条线从 3.00 吨的碳排放量开始,然后每增加 1 辆车就上升 0.0125 吨。每辆车增加 0.0125 等于每 100 辆车增加 125(图 3-5)。如表 3-3 所示,0 辆车的碳排放量期望值为 3.00 吨。对于 100 辆车,期望值为 4.25 吨。对于 200 辆车,期望值为 5.50 吨,依此类推。从类似图 3-2 或图 3-3 的图表中读取期望值是一种寻找它们的方法,但更好的方法是使用斜率和截距在一个方程中计算它们。例如,计算碳排放量期望值的方程如图 3-6 所示。此方程使用的是图 3-4 中报告的碳排放量的斜率和截距。这些是与碳排放量与乘用车散点图中使用的相同斜率和截距。
使用此方程,可以计算出任何乘用车水平的碳排放量期望值。例如,美国乘用车水平为每 1000 人 461 辆。使用图 3-6 中所示的方程,美国二氧化碳排放量的期望值为 3.00 + 0.0125 x 461 或 8.7625 吨/人。四舍五入到最接近的小数位,美国二氧化碳排放量的期望值约为 8.8 吨/人。美国二氧化碳排放量的实际值,19.5 吨,显然远高于预期。如上所述,这是因为几乎一半的美国人驾驶 SUV 和卡车,而不是汽车。
3.3. 预测值 回归系数的另一个用途是预测未包含在回归分析中的情况下的因变量水平。预测值是对应于所选自变量值的因变量的期望值。换句话说,我们可以使用回归线的方程进行预测。例如,加拿大没有包含在本节中的二氧化碳分析中,因为 WDI 数据库(图 3-1)缺少加拿大的乘用车数据。尽管 WDI 中没有加拿大乘用车数据,但加拿大政府有这些数据。根据加拿大政府的官方统计数据,2005 年加拿大每 1000 人拥有 290 辆乘用车。这个数字如此之低,是因为像美国人一样,几乎一半的加拿大人驾驶卡车和 SUV,而不是汽车。二氧化碳排放量回归线的方程表明,二氧化碳排放量期望值为 3.00 + 0.0125 x 乘用车(图 3-6)。使用加拿大政府的加拿大乘用车数据,3.00 + 0.0125 x 290 = 6.625,四舍五入到大约 6.6 吨。加拿大二氧化碳排放量的实际值为 16.6 吨。这些数字在图 3-7 中绘制出来。与美国一样,加拿大的二氧化碳排放量远高于根据回归模型的预期。
预测值和期望值是非常相似的概念。事实上,许多人使用这两个术语来表示同一个意思。它们之间的区别实际上只是意图上的区别。回归线根据自变量的实际观测值绘制因变量的期望值。预测值是在没有数据的情况下用来预测情况的期望值。例如,在第 1 章中,当我们使用州中位收入来研究全美各地的软饮料消费量时,我们缺少阿拉斯加和夏威夷的软饮料数据。阿拉斯加和夏威夷都缺少因变量数据。自变量,州中位收入,这两个州都有数据:阿拉斯加为 60,945 美元,夏威夷为 65,146 美元。这些收入数据可以与使用美国其他州数据的回归模型相结合,以预测阿拉斯加和夏威夷的软饮料消费量。图 3-8 报告了州中位收入作为自变量,州人均软饮料消费量作为因变量的回归模型的结果。此模型中的回归线截距为 93.9,斜率为 -0.60。这意味着每增加 1000 美元的收入,软饮料消费量就会下降 0.60 加仑。这条回归线是出现在图 1-2 中散点图上的线。这条线的方程是软饮料消费量 = 93.9 - 0.60 x 州中位收入(以千美元为单位)。
此方程可用来计算阿拉斯加和夏威夷的软饮料消费量的预测值。阿拉斯加州的中位收入约为 61,000 美元(四舍五入到最接近的千位以简化计算)。回归模型预测阿拉斯加的软饮料消费量水平为 93.9 - 0.60 x 61 = 57.3 加仑。夏威夷州的中位收入约为 65,000 美元(同样四舍五入到最接近的千位)。对夏威夷进行相同的处理,预测值为 93.9 - 0.60 x 65 = 54.9 加仑。软饮料消费量的预测值绘制在图 3-9 中其他 48 个州和哥伦比亚特区的州收入和软饮料消费量散点图上。阿拉斯加和夏威夷可能没有图 3-9 中绘制的软饮料消费量水平,但这些预测值是我们根据现有数据所能做出的最佳猜测。它们是关于阿拉斯加人和夏威夷人会喝多少加仑软饮料的预测,如果我们有数据的话。
预测值可以在两种不同的情况下计算。它们可以是针对落在观测数据范围内的值的计算,也可以是针对落在观测数据范围外的值的计算。插值是使用回归模型计算观测数据范围内预测值的过程。上面计算的所有预测值——加拿大的碳排放量、阿拉斯加的软饮料和夏威夷的软饮料——都是插值的例子。在这三种情况下,因变量的值都落在分析中其他案例中已经观察到的值的范围内。然而,有时我们希望在已经观察到的值之外进行预测。外推是使用回归模型计算观测数据范围外预测值的过程。例如,预测一个没有私家车的世界上碳排放量将是多少需要外推。当今世界上没有国家没有私家车。即使是非洲西部的尼日尔,每 1000 人也拥有 4 辆私家车。社会科学家通常对插值感到满意,但对外推持谨慎态度。这是因为预测值的插值基于现实世界中存在的实际经验,而外推则不然。例如,我们可能不知道阿拉斯加和夏威夷的软饮料消费量,但我们知道其他收入水平相似的州的消费量。这些信息可用于预测阿拉斯加和夏威夷的消费水平,并且具有一定的可信度。另一方面,我们可能犹豫是否使用图 3-9 中绘制的数据来预测波多黎各的软饮料消费量。波多黎各的中位收入仅为 18,610 美元。这远远超出了可用数据的范围。使用图 3-10 中回归线的方程来预测波多黎各的软饮料消费量将得到一个约 82.7 加仑/人的预测值,但大多数社会科学家不会对这种预测感到自信。
3.4. 使用预测值比较人口(可选/高级)在美国,平均而言,女性的收入低于男性,黑人的收入低于白人。根据 2008 年收入与计划参与调查(SIPP)的数据,20-29 岁的美国女性的收入比男性低 4966 美元,黑人的收入比白人低 6656 美元(平均而言)。这些数据来自 2008 年 SIPP 的第 2 波。这里的收入定义为工资收入(通过工作赚取的收入,而不是通过投资赚取的收入),计算为 SIPP 中记录的月收入的 12 倍。工资收入的性别差距很大,种族差距更大。工资收入的这些性别和种族差距可能是由于歧视造成的,也可能是由于其他原因造成的。例如,有可能接受 SIPP 调查的白人男性比其他群体的人年龄更大。如果他们年龄更大,他们应该会有更高的收入。白人男性也可能在其他方面有所不同。他们可能拥有更多经验或更多教育。有可能,性别和种族差距的一部分可以通过样本中特定人群的具体特征来解释。为了公平地比较收入,必须进行同类比较。本书后面的章节将讨论如何“控制”年龄、教育和经验等混杂影响,但在某些情况下,预测值也可以完成这项工作。例如,可以使用预测值来预测如果所有人的年龄都相同,则每个群体的收入将是多少。人们的收入随着年龄的增长而增长,从 20 岁左右开始。图 3-10 报告了使用年龄作为自变量,工资收入作为因变量的四个回归模型的结果:一个针对黑人女性,一个针对黑人男性,一个针对白人女性,一个针对白人男性。请注意,这里截距并没有多大意义。截距是自变量等于零时因变量的预期值。在图 3-10 中,截距将代表人们在 0 岁时的预期工资收入。显然,这不是一个很有意义的概念。它也是对观测数据的范围的极端外推,这些数据是基于 10-29 岁的人。简而言之,图 3-10 中的截距只是回归线开始的地方。除了这一点之外,它们没有任何实际意义。
图 3-10 中报告的回归模型的斜率对比了额外一年的年龄对不同人群工资收入的影响。对于黑人女性来说,平均而言,每多一年的年龄就会带来 1421 美元的额外工资收入。黑人男性从多一年的年龄中获得的优势并不那么大,只有 1281 美元。最大的差异出现在白人女性和男性身上。对于白人女性来说,平均而言,每多一年的年龄就会带来 2076 美元的额外工资收入。年龄对白人男性的益处更大。对于白人男性来说,平均而言,每多一年的年龄就会带来 2830 美元的额外工资收入。白人男性多一年的年龄的预期收益几乎是黑人女性平均收益的两倍。图 3-10 中报告的四个回归模型的系数可用于计算黑人女性、黑人男性、白人女性和白人男性在任何给定年龄的工资收入的预测值。从图 3-10 可以看出,黑人女性的回归模型为:工资收入 = -7767 + 1421 x 年龄。对于不同年龄的黑人女性,这相当于:年龄 25 岁:工资收入 = -7767 + 1421 x 25 = 27,758 美元年龄 30 岁:工资收入 = -7767 + 1421 x 30 = 34,863 美元年龄 40 岁:工资收入 = -7767 + 1421 x 40 = 49,073 美元这些数据在图 3-11 中黑人女性的栏目中报告。黑人男性、白人女性和白人男性的数据采用相同的方式计算。对每个群体在 25 岁时的工资收入的预测是插值,因为研究中 SIPP 参与者的年龄为 20-29 岁。作为插值,它应该是对每个类别中 25 岁的人预期的收入的相当准确的估计。对 30 岁时的工资收入的预测处于插值和外推之间的边缘,因此可能不太可靠。对 40 岁时的工资收入的预测是远期外推,而且距离现在太远,以至于大多数社会科学家根本不会信任它。这里包含了 40 岁的外推,只是为了说明外推是如何工作的。
这些模型告诉我们关于歧视的什么?在 SIPP 数据中,总体而言,二十多岁的女性和男性之间的收入差距为 4966 美元,而黑人和白人之间的收入差距为 6656 美元。比较 25 岁的人的预测收入,黑人女性的预测收入比黑人男性低 3082 美元,而白人女性的预测收入比白人男性低 3994 美元。这意味着,考虑到种族和经验,25 岁的女性的收入比男性低约 3000-4000 美元,而不是原始数据显示的 5000 美元。同样,黑人女性在 25 岁的预测收入比白人女性低 4855 美元,而黑人男性的预测收入比白人男性低 5757 美元。同样,经过年龄和性别的调整后的差异很大,但没有原始种族差距的 6656 美元那么大。在 25 岁时,工资收入的性别和种族差距很大,但没有仅仅根据原始数据认为的那样大。
3.5. 案例研究:根据种族预测州选举结果 2008 年 11 月 4 日,巴拉克·奥巴马当选为美国首位黑人总统。奥巴马总统的父亲是肯尼亚人,巴拉克·奥巴马本人主要在夏威夷长大,远离美国民权斗争的历史中心。尽管如此,就像任何黑人美国人一样,奥巴马一生都受到种族歧视的影响。奥巴马和美国在奥巴马当选总统时克服了种族歧视,但他的种族是否是他当选的因素?回归模型可以帮助阐明种族在 2008 年大选中所起的作用。大多数时候歧视会伤害一个人,但有时它也会帮助一个人。在 2008 年总统大选中,黑人美国人压倒性地投票支持巴拉克·奥巴马。根据 CNN 新闻报道,选举之夜的出口民调显示,96% 的黑人投票给了奥巴马。这些选票无疑帮助奥巴马赢得了选举,但美国大选不仅仅取决于投票给候选人的人数。它们由州选举人票决定。在大多数州,谁在该州获得的票数最多,谁就获得该州的所有选举人票。因此,有可能赢得最多的选票,但仍然输掉选举。这在 2000 年发生在戈尔身上,当时他赢得的人数比布什多,但州选举人票少。在 2008 年的大选中,奥巴马赢得了最多的人数投票和最多州选举人票,因此当选总统。奇怪的是,尽管如此,他在一些黑人人口最多的州输掉了选举。例如,密西西比州的黑人人口比例是美国所有州中最高的(黑人占 37.2%),但奥巴马在密西西比州只获得了 43.0% 的选票,输给了他的对手约翰·麦凯恩。同样的事情也发生在其他黑人人口众多的州,如阿拉巴马州和路易斯安那州。图 3-12 绘制了州黑人人口百分比与该州投票给奥巴马的选民百分比之间的关系。事实证明,2008 年,州的黑人人口与其总统投票之间几乎没有关系。回归线的斜率实际上略微为负。这意味着黑人人口比例较高的州往往投票给奥巴马的比例略低。奥巴马在他在夏威夷(71.9%)长大的州获得了最高的投票率。奥巴马的投票率最低的是历史上的共和党支持州怀俄明州(32.5%)。
鉴于 96% 的黑人美国人投票支持奥巴马,那么为什么各州的黑人人口数量与对奥巴马的投票率之间没有关系呢?答案是,在许多黑人人口众多的州,白人压倒性地投票支持他的对手约翰·麦凯恩。这种趋势在南部地区尤为明显。美国黑人争取民权斗争的历史中心一直是南部,特别是 11 个在内战 (1861-1865) 期间脱离美国联邦的邦联前州。这 11 个邦联州坚决致力于维持奴隶制制度,在被重新接纳入联邦后,他们制定了歧视其黑人公民的政策和法律。黑人美国人在美国各地都遭受过歧视,但 11 个邦联前州的历史歧视程度远高于其他地区。图 3-13 绘制了与图 3-12 完全相同的数据,但将各州分为从未加入邦联的 39 个“自由”州和在内战期间脱离美国联邦的 11 个邦联前州。自由州用菱形标记,邦联前州用 X 标记。分别为这两组州绘制了回归线。在 39 个自由州中,黑人人口比例更高的州,对奥巴马的投票率也更高,正如预期的那样。在 11 个邦联前州中,黑人人口比例更高的州,对奥巴马的投票率实际上更低。
图 3-14 总结了图 3-12 和图 3-13 中绘制的线的回归系数。图 3-12 中绘制的所有州的线是图 3-14 中的模型 1。图 3-13 中绘制的自由州线是模型 2,而图 3-13 中绘制的邦联前州线是模型 3。每个模型的案例数量 (N) 已在表中注明。在模型 1 中,截距为 51.1,斜率为 -0.057。51.1 的截距意味着,对黑人选民为零的州,奥巴马投票率的预测值为 51.1%。这是一个外推值,因为实际上不存在黑人人口为 0% 的州。通常,外推值不如内插值可靠,但在这个例子中,外推值非常小,因为几个州的黑人人口比例低于 1%。
模型 1 中的斜率为 -0.057。这意味着,对于一个州的黑人人口比例每增加 1%,预计奥巴马的投票率将下降 0.057%。这是一个非常非常小的向下倾斜。一个州的黑人人口数量对该州对奥巴马的总投票率几乎没有影响。不包括邦联前州,自由州模型 (模型 2) 的截距为 48.1。这意味着,模型 2 会预测,在黑人选民为零的州,对奥巴马的投票率为 48.1%。这与模型 1 的预测不同,但相差不大。这两个预测值(模型 1 的 51.1% 和模型 2 的 48.1%)都在黑人选民数量非常少的州(如佛蒙特州和怀俄明州)对奥巴马的实际投票率范围内。更重要的是模型 2 的斜率。只关注 39 个自由州,回归线的斜率明显为正。对于 39 个自由州,一个州的黑人人口比例每增加 1%,与对奥巴马的投票率增加 0.576% 相关。这是一个很大的影响。黑人人口比例增加 1 个百分点,预计对奥巴马的投票率将增加 0.5 个百分点。模型 3 重复了奥巴马投票率对各州黑人人口比例的回归,但这次只使用了 11 个历史上属于脱离美国联邦的邦联的南部州(1861-1865)。在邦联前州,对黑人选民为零的州,对奥巴马的投票率的预测值为 47.3。这个预测值是一个远超出这些州黑人选民数量观察范围的外推值,但它仍然是一个可信的数字。它比模型 1 和模型 2 中的等效预测值略低,但相差不大,并且在黑人人口比例较小的自由州对奥巴马的实际观察投票率范围内。模型 3 中更重要的系数是斜率。斜率为 -0.114。这意味着,在 11 个邦联前州,黑人人口比例增加 1%,与对奥巴马的投票率下降 0.114% 相关。黑人人口比例每增加 1 个百分点,预计对奥巴马的投票率将下降略高于十分之一的百分点。这很引人注目。在南部以外地区,一个州的黑人人口越多,投票支持奥巴马的人就越多。在南部,一个州的黑人人口越多,投票支持麦凯恩的人就越多。对约翰·麦凯恩的高票数并不代表种族主义。没有理由认为怀俄明州 67.5% 的麦凯恩票数代表怀俄明州的种族主义。但在种族主义历史最糟糕的州(而且只有这些州),对约翰·麦凯恩的支持率在黑人公民比例最高的州最强劲。换句话说,如果南部白人有黑人邻居,他们更有可能投票支持麦凯恩。如果一个州的黑人人口较少,白人更愿意投票支持奥巴马,但如果一个州的黑人人口较多,白人往往会投票支持麦凯恩。这是一个非常强烈的间接证据,表明这些州存在种族主义的遗留问题。需要进一步的研究才能更全面地了解这些投票模式,但图 3-14 中报告的回归模型确实对当今美国的种族和种族主义提出了严重的问题。
- 外推是指使用回归模型来计算观察数据范围内的预测值的过程。
- 截距是指回归线在散点图中与因变量轴相交的位置。
- 内插是指使用回归模型来计算观察数据范围内的预测值的过程。
- 预测值是指对应于自变量选定值的因变量的预期值。
- 回归系数是指定义回归线的斜率和截距。