跳转至内容

社会统计/第 7 章

来自维基教科书,开放世界中的开放书籍

多元线性回归简介

[编辑 | 编辑源代码]

父母和政客总是坚信他们的孩子没有接受到足够好的教育。为了部分满足父母和政客的要求,以便比较不同国家之间的教育成果,经济合作与发展组织 (OECD) 实施了国际学生评估项目 (PISA)。该项目组织了标准化测试,比较了 OECD 成员国和其他国家 15 岁学生的知识水平。PISA 测试非常重视父母和政客最担心的主题——数学和科学——而忽略了其他可能更有助于确保幸福和成功生活的学科,如文学、艺术,当然还有社会科学。尽管如此,各国 PISA 测试结果可用于帮助回答关于国家教育成果的重要社会科学问题。父母和政客经常提出的一个担忧是,选择进入科学和工程专业的女性人数很少。这可能是也可能不是问题——毕竟,说科学领域缺少女性就等同于说其他领域缺少男性——但它被普遍认为是一个问题。许多 OECD 国家(包括美国)都有专门的政府资助项目,旨在增加学习科学的女孩人数以及选择科学职业的女性人数。父母和政客尤其担心,青少年女孩在高中的科学成绩似乎不如青少年男孩。青少年女孩的科学成绩真的不如青少年男孩吗?来自 PISA 测试的跨国数据可用于回答这个问题。图 7-1 报告了关于 PISA 科学成绩的数据。

图 7-1. 2006 年 15 岁学生科学知识的比较国际数据(来自 45 个 OECD 和非 OECD 国家的数据)

除了通常的元数据项外,图 7-1 包含七个变量:BOYS——男孩的国家平均 PISA 科学成绩 GIRLS——男孩的国家平均 PISA 科学成绩 GAP——科学教育中的性别差距 (BOYS - GIRL) INCOME——人均国民收入(以美元计) SPEND——教育支出占国民总收入的百分比 TEACHERS——每 100 名学生对应的教师人数 PISA 成绩被设计为对整个 OECD 来说平均值为 500。高于 500 的国家成绩高于 OECD 平均值,低于 500 的国家成绩低于 OECD 平均值。由于每个国家都有男孩和女孩的科学成绩,图 7-1 中的数据库是一个配对样本。男孩和女孩成绩之间的平均差值为 0.36 分(男孩的平均值比女孩的平均值高 0.36 分)。此差异与 t 统计量 t = 0.31(自由度为 44)相关。根据此 t 统计量,男孩和女孩之间真实平均差值为 0 的概率为 0.759。由于此概率为 75.9%,非常高,我们推断男孩和女孩在科学方面的表现可能没有真正的差异。尽管在所有 45 个国家中没有发现性别差距的证据,但许多国家存在很大的性别差距。图 7-2 列出了 13 个性别差距大于 5 分的国家。这些国家的政策制定者可能会要求社会科学家解释性别差距,然后建议可以帮助缩小差距的政策。以下三种理论可能解释了科学成绩的性别差距:(1)收入——富裕国家拥有更大的性别平等,因此富裕国家的女孩比贫困国家的女孩更容易受到鼓励学习科学(2)支出——高水平的教育支出往往会使所有学生的表现趋于均衡,而教育支出很少的国家可能会偏爱男孩而非女孩(3)教师——女孩比男孩更容易通过个人互动学习,因此拥有更多教师和更小的班级规模更有利于女孩的教育,而不是男孩的教育

图 7-2. 2006 年科学教育中性别差距最大的国家排名(数据来自图 7-1)

这些理论中的每一个都可以使用图 7-1 中报告的数据进行具体假设的操作化。收入理论预测,收入水平较高的国家将拥有较小的性别差距(随着收入的增加,差距减小)。支出理论预测,教育支出较高的国家将拥有较小的性别差距(随着支出的增加,差距减小)。最后,教师理论预测,教师数量较多的国家将拥有较小的性别差距(随着教师数量的增加,差距减小)。图 7-3 报告了与每个假设相关的回归模型的结果。

图 7-3. 2006 年科学成绩性别差距对各种自变量的回归(数据来自图 7-1)

结果完全与收入理论相矛盾。图 7-3 中模型 1 的斜率表明,富裕国家的性别差距实际上比贫穷国家更大(尽管这种影响在统计上并不显著)。另一方面,结果确实倾向于证实支出理论,但支出的影响在统计上并不显著。在模型 2 中,0.693 的概率表明,支出真实影响为 0 的概率非常大。图 7-3 中唯一强劲的结果是教师的斜率。根据模型 3 中的斜率,每增加 100 名学生对应的教师人数,往往会将性别差距减少超过 1 分。这种结果不太可能是偶然发生的(概率小于 2.3%)。政策含义似乎是,如果一个国家想要缩小科学教育中的性别差距,就需要更多教师。显然,雇用更多教师需要资金。然而,支出与性别差距之间的关系与 0 并没有显著不同。此外,只有富裕国家才能负担得起增加教育支出的费用。简而言之,在不同时改变其他因素的情况下,很难改变这些决定性别差距的三个因素中的任何一个。我们真正需要的是一个综合模型,能够同时考虑所有三个变量。为此,需要新的统计工具。

本章介绍多元线性回归模型。首先,没有理由让回归模型不能拥有两个、三个甚至数十个自变量(第 7.1 节)。自变量的潜在数量仅受可用自由度的限制,但如果自变量过多,它们将都不具有统计学意义。其次,多元回归模型的斜率代表所有自变量对因变量的独立影响(第 7.2 节)。回归模型通常用于研究一个自变量的影响,同时“控制”其他变量的影响。第三,像任何统计模型一样,多元回归模型可用于预测因变量的值(第 7.3 节)。多元回归中的预测与只有一个自变量时的预测完全相同,只是增加了其他变量。可选部分(第 7.4 节)解释了如何使用控制变量来减少回归模型中的误差量,从而间接提高回归系数的显著性。最后,本章以撒哈拉以南非洲国家儿童死亡率决定因素的应用案例研究(第 7.5 节)结束。本案例研究说明了当回归模型中添加额外的变量时,回归系数如何可能增加或减少。本章的所有关键概念都将在本案例研究中使用。在本章结束时,您应该能够使用多元回归对多个自变量对单个因变量的影响做出基本的推断。

7.1. 多元回归模型 社会科学家通常有多种相互竞争的理论来解释同一现象。教育中的性别差距可能是由于国民收入、支出或教师造成的。国家的对外援助支出水平可能取决于其国民收入、欧洲国家地位或援助效率水平。人们的收入可能取决于其年龄、种族、性别和教育程度。此外,这些理论并不相互排斥。人们的收入会因种族和性别而异,而不是仅仅因为其中一个因素。社会科学中的大多数结果都是多种原因造成的。旨在研究它们的模型也必须有多个原因。多因模型是具有一个因变量但两个或多个自变量的统计模型。尽管可能存在许多不同类型的多因模型,但最常用的多因模型是线性回归模型的直接扩展。多元线性回归模型是统计模型,其中因变量的期望值被认为会随着两个或多个自变量的值而直线上升或下降。多元回归模型的工作原理与简单线性回归模型相同,只是它们具有额外的自变量。它们产生期望值,这些期望值是因变量仅基于自变量的值所期望具有的值。它们通过确定最小化回归误差标准差的组合回归系数(斜率和截距)来实现这一点。实际上,多元回归模型根据两个或多个自变量的值同时对因变量的观测值进行分配。具有多种原因的社会科学现象的一个例子是外国援助。图 7-4 显示了官方发展援助 (ODA) 支出的多元线性回归模型。该模型整合了图 6-9 中提出的三个 ODA 支出模型:一个基于收入(模型 1),一个基于欧洲国家地位(模型 2),以及一个基于管理成本(模型 3)。在简单线性回归模型中,发现国民收入和欧洲国家地位都与 ODA 支出水平显着相关(管理成本的影响不显着)。多元线性回归模型(模型 4)同时将 20 个富裕国家中 ODA 水平的总变异性分布到所有三种解释中。模型 4 中的系数代表了系数的唯一组合,这些组合导致模型整体的回归误差标准差尽可能小。

图 7-4. 2008 年 20 个富裕国家选定国家指标的 ODA 支出多元线性回归(根据图 6-9;OECD 数据来自图 4-1)

在模型 4 中,国民收入的斜率略小于模型 1 中的斜率(0.010 对比 0.013)。尽管它更小,但它仍然在统计学上显着(概率 = 0.007 或 0.7%)。随着国家变得更富裕,它们在 ODA 支出中投入了更多国民收入。欧洲国家地位的斜率在模型 4 中也下降了,但幅度更大(从 0.328 降至 0.199)。欧洲国家地位的新斜率较小,不再在统计学上显着(概率 = 0.128 或 12.8%)。欧洲国家的观测 ODA 支出水平仍然比非欧洲国家高出 0.199%,但这种差异在统计学上不显着。换句话说,模型 4 中报告的结果表明,欧洲国家和非欧洲国家之间的 ODA 支出差异可能是由于随机误差造成的。在模型 4 中,与模型 3 相同,管理成本对 ODA 支出没有可衡量的影响。所有 20 个国家 ODA 支出的平均水平为国民收入的 0.52%,标准差为 0.268%。模型 4 的回归误差标准差为 0.185%。多元回归模型的误差明显小于简单平均值模型。各国对 0.52% 的平均支出水平的总体偏差的一部分可以追溯到国家欧洲地位(欧洲或非欧洲),但更多可以追溯到国家的国民收入水平(富裕与贫穷)。模型 2 中的欧洲国家地位系数与模型 4 中的系数之间的对比表明,欧洲国家和非欧洲国家 ODA 支出水平之间的一部分差异是由于欧洲国家往往比非欧洲国家更富裕。图 7-5 说明了这一点。

图 7-5. 2008 年 20 个富裕国家国民收入和 ODA 支出的欧洲国家与非欧洲国家均值(OECD 数据来自图 4-1)

欧洲国家的 ODA 支出平均水平远高于非欧洲国家的平均水平,但国民收入的平均水平也是如此。欧洲国家之所以在对外援助方面花费如此之多,是因为他们是欧洲国家,还是因为他们很富裕?多元回归模型表明,真正的答案是这两种解释的结合。欧洲国家确实像其他富裕国家一样在 ODA 上花费了很多,但它们的花费甚至超出了仅基于其国民收入水平的预期。多出多少?最佳估计是欧洲国家在 ODA 上花费的国民收入比其他收入水平相似的国家高出 0.199%。这个数字来自模型 4 中的欧洲国家地位系数。0.199% 的差异与 0% 在统计学上没有显着差异,但它仍然是差异的最佳估计。换句话说,我们最好的猜测是,成为欧洲国家会让一个国家在援助方面的支出比仅基于其收入水平原本应该的支出高出 0.199%。就像欧洲国家可能因为收入更高而在援助方面花费更多一样,高收入国家可能在援助方面花费更多,部分原因是其中许多国家是欧洲国家。在图 7-4 中,国民收入的斜率在模型 1 中为 0.013,但在模型 4 中下降到 0.010。多元回归模型(模型 4)中国民收入的斜率低于简单线性回归模型(模型 1),因为在多元回归模型中,ODA 支出水平的总变异性在国民收入和欧洲国家地位之间分配。最终,多元线性回归所做的是将因变量的总变异性分配到所有自变量中。本质上,多个自变量都在争夺相同的可用变异性。这通常(但并非总是)表现为多元回归模型中较小的斜率。在图 7-3 中,三个不同的自变量用于解释三个单独线性回归模型中科学分数的性别差距。三个自变量是国民收入、教育支出和每 100 名学生的教师人数。图 7-6 显示了使用所有三个变量的科学性别差距的多元线性回归模型。图 7-6 中的斜率实际上比原始三个模型中的斜率更强,而不是更弱。这种情况只有在多个自变量相互补充,捕捉因变量的不同方面时才会发生。有些国家性别差距很大,因为它们收入很高,但同时也因为它们拥有大量教师而性别差距很小。在简单线性回归模型中,这两种影响相互抵消,但在多元线性回归模型中,两种单独的影响都得到了揭示。

图 7-6. 2006 年科学分数性别差距的多元线性回归,涉及各种自变量(数据来自图 7-1)

多元线性回归是社会科学中最常用的统计模型。它以非常紧凑的空间总结了关于变量如何关联的大量信息。多元回归表始终报告模型截距和每个自变量的斜率。有时它们报告系数的标准误差,有时报告 t 统计量,有时报告 t 统计量的概率。当社会科学家想要在一张表中报告大量结果时,他们只报告系数,并使用脚注来指示其关联的 t 统计量的概率,如图 7-7 所示。由于多元回归表包含如此多的信息,因此一篇完整的论文可以围绕单个结果表展开。简而言之,多元线性回归分析是社会统计学的主要方法。

图 7-7. 2006 年科学性别差距的回归模型(图 7-3 和图 7-6 中结果的摘要)

7.2. 使用多元回归进行预测 多元线性回归模型可用于计算因变量的预测值,方法与简单线性回归完全相同。由于多元线性回归模型比简单回归模型包含更多预测因子,因此它们往往会产生更准确的预测。预测因子是回归模型中的自变量。图 7-8 显示了使用四个预测因子来预测美国 20 多岁受雇者的收入的多元回归模型。所有四个预测因子(年龄、种族、性别和教育)都具有高度显着的斜率。根据 t 统计量,种族是四个自变量中最重要的,但即使是种族在统计学上也高度显着。请注意,该模型的截距本身并没有太大意义,但对于计算预测值来说是必要的。

图 7-8. 2008 年 4964 名年龄在 20-29 岁的受雇 SIPP 受试者的工资收入回归结果表

基于图 7-8 中报告的回归系数,工资收入的方程在图 7-9 中列出。预测收入从 -68,933 美元开始,适用于一个没有受过教育的 0 岁的黑人女性。当然,这是回归分析的无意义推断:新生儿没有收入或教育。尽管如此,它是计算预测值的起点。从 -68,933 美元开始,每增加一年的年龄带来 1843 美元的收入,为白人增加 4901 美元的预测收入,为男性增加 7625 美元的预测收入,每增加一年的教育带来 3599 美元的收入。使用图 7-9 中的方程,可以预测任何 20 多岁的美国白人或黑人的收入。预测可能不准确,但它们会比仅仅根据美国 20 多岁人群的平均收入来预测人们的收入更准确。

图 7-9. 2008 年美国 20 多岁人群的预测工资收入方程

图 7-10 说明了 10 个美国 20 多岁人群的预测工资收入水平的计算。表中的值说明了单个回归模型(图 7-8)如何产生各种各样的预测。预测收入从 21,885 美元开始,适用于一个 21 岁的白人男性高中辍学者,到 61,822 美元结束,适用于一个 29 岁的白人男性 MBA 学位获得者。更低和更高的收入也是可能的。例如,一个 21 岁的黑人女性高中辍学者的预计年收入仅为 9,359 美元。这低于美国全职工人的最低工资,但 SIPP 数据基于所有受雇者,包括兼职雇员。正如回归模型预测的那样,一个 21 岁的高中辍学者可能难以找到全职工作。

图 7-10. 2008 年 10 个美国 20 多岁人群的预测收入示例

当然,大多数人的收入与其预测值相差很大。差别有多大?图 7-11 报告了六种不同预测人们收入的方法的模型误差标准差。在平均模型中,每个人的收入都使用样本中所有 4964 名美国二十多岁年轻人的观测平均收入进行预测。四个简单回归模型分别使用单个自变量来计算收入的预测值,而多元回归模型则将所有四个自变量一起使用。误差标准差基于所有 4964 人在每个模型中对其预期收入的偏差。多元线性回归模型的模型误差小于其他任何模型,但差别不大。即使知道人们的年龄、种族、性别和教育程度,也很难准确地预测他们的收入。

图 7-11。2008 年美国二十多岁有工作人士收入的各种模型的模型误差标准差比较

7.3。统计控制的意义 当多元回归的目的是预测特定结果(如人们的工资收入水平)时,回归系数的统计显著性并不十分重要。回归模型中的真实斜率是否与 0 显着不同不会改变观测到的斜率是真实斜率的最佳可用估计这一事实。换句话说,当使用回归进行预测时,观测到的斜率已经足够好了。另一方面,当使用回归来评估假设时,斜率的统计显著性至关重要。例如,在图 7-4 中,行政成本的观测到的斜率非常小,以至于真实斜率可能类似于 0 的概率非常高(模型 4 中的概率 = 0.912)。我们据此推断,行政成本可能不是国家官方发展援助支出水平的重要原因。同样,在图 7-6 中,与教育支出相关的 t 统计量的概率为 0.243,表明教育支出不是科学成绩性别差距的重要预测指标。这并不奇怪,因为教育支出在其简单线性回归模型中也不显著(图 7-3 中的模型 2)。相反,国民收入在其简单线性回归模型中并不显著(图 7-3 中的模型 1),但在性别差距的多元回归模型中却显著(图 7-6 中的模型 4)。在图 7-3 中,国民收入的观测到的斜率为 0.09,真实斜率可能为 0 的概率为 0.208。在图 7-6 中,国民收入的观测到的斜率为 0.16,真实斜率可能为 0 的概率为 0.048。国民收入的真实斜率是 0 还是不是 0?更富裕的国家是否具有更大的性别差距?这个问题的简单答案来自简单线性回归:较高的国民收入与较大的性别差距相关联,但这种关系很弱,不能排除实际上没有真实关系的可能性。一个更细致的答案来自多元线性回归结果。多元线性回归结果说明了控制教育支出和每 100 名学生中的教师数量后的国民收入的影响。控制变量是在多元回归分析中“保持不变”的变量,以便突出特定感兴趣的自变量的影响。多元回归中国民收入的 0.16 斜率意味着,在控制教育支出和教师数量的情况下,每增加 1000 美元的国民收入,一个国家的科学成绩性别差距就会增加 0.16。这与简单线性回归模型中国民收入 0.09 斜率的含义不同。从预测值的意义上考虑斜率,模型 1 只使用国民收入来预测性别差距。收入更高的国家往往有更大的差距。但收入更高的国家也往往有更多的教育支出和更多的教师。当国家的收入发生变化时,它们的支出和教师数量也会发生变化。预测一个富裕国家的性别差距意味着预测一个在教育方面投入大量资金并拥有大量教师的国家的性别差距。由于模型 1 中没有包含教育支出和每 100 名学生中的教师数量,国民收入的影响包括与更高国民收入相关联的所有事物的效应:更大的房屋、更好的道路、更多的电视频道、更好的衣服——当然还有更多教育支出和更多每 100 名学生中的教师。模型 4 使用国民收入、教育支出和每 100 名学生中的教师数量同时预测性别差距。在模型 4 中,更高的国民收入仍然意味着更大的房屋、更好的道路、更多的电视频道和更好的衣服,但它并不意味着更多的教育支出或更多的每 100 名学生中的教师。这是因为在使用国民收入进行预测时,模型 4 中教育支出和每 100 名学生中的教师数量是“保持不变”的。要了解这一点,请考虑预测性别差距的值。当所有三个自变量都为 0 时,预测的性别差距是截距,即 13.95 分。当国民收入从 0 美元上升到 1000 美元时,预测的性别差距为 13.95 + 1 x 0.16,即 14.11 分。当国民收入上升到 2000 美元时,预测的性别差距又增加了 0.16 分,达到 14.27 分。每增加 1000 美元的收入,性别差距就会增加 0.16 分。教育支出和每 100 名学生中的教师数量发生了什么?它们保持在 0。它们没有改变。多元线性回归中国民收入的 0.16 斜率是国民收入独立于教育支出和每 100 名学生中的教师数量的斜率。它是国民收入在“保持不变”或“控制”教育支出和每 100 名学生中的教师数量下的斜率。简单线性回归中国民收入的 0.09 斜率是国民收入与其他两个变量之间的任何关联混合在一起的斜率。模型 4 中的多元回归独立于支出理论和教师理论,考察了收入理论对性别差距的有效性。回归模型中自变量的顺序没有特殊之处。模型 4 中的多元线性回归还独立于收入理论和教师理论,考察了支出理论的有效性,以及独立于收入理论和支出理论,考察了教师理论的有效性。每个变量在分析上都是等效的,无论变量输入的顺序如何,回归结果都将相同。为什么国民收入相关的斜率在模型 1 和模型 4 之间上升?当使用控制变量时,回归斜率没有必须上升或下降的规则。国民收入的斜率上升是因为较高的国民收入通常与较多的教师数量相关联。在模型 1 中,每当国民收入上升时,每 100 名学生中的教师数量也往往会上升。国民收入对性别差距有积极影响,而每 100 名学生中的教师数量对性别差距有消极影响。因此,收入上升往往会扩大差距,但与收入上升相关的额外教师往往会缩小差距。最终结果是,每增加 1000 美元的国民收入,差距就会略微增加 (+0.09 分)。这是两步前进,一步后退。在模型 4 中,教师数量保持不变。教育支出水平也是如此。因此,模型 4 显示了国民收入的全部影响,即每增加 1000 美元的国民收入,性别差距就会增加 +0.16 分。多元线性回归中国民收入的斜率大于简单线性回归中的斜率,因为其他两个变量的作用与国民收入的影响相反。控制其他两个变量可以揭示国民收入的真实解释能力。实际上,教育发送和每 100 名学生中的教师数量补充了教育支出。补充控制是指在多元回归模型中通过揭示其解释能力来补充感兴趣的自变量的控制变量。补充控制非常理想,因为它们有助于阐明自变量对因变量的真实影响。自变量并不总是补充多元回归模型中的其他自变量。实际上,它们通常不会。在大多数情况下,控制额外的自变量要么对模型没有影响,要么会降低模型中观测到的斜率的强度。例如,图 7-12 展示了对图 7-5 中的官方发展援助支出回归的重新分析。图 7-12 从官方发展援助支出对国民收入的简单线性回归开始(模型 1),然后加入对行政成本的控制(模型 2),然后加入对欧洲身份的额外控制(模型 3)。控制行政成本对国民收入的斜率没有影响,而控制欧洲身份则降低了国民收入的斜率。

图 7-12。2008 年 20 个富裕国家的官方发展援助支出对所选国家指标的线性回归(根据图 7-5;来自图 4-1 的经合组织数据)

控制欧洲身份降低了国民收入的斜率,因为欧洲身份变量与国民收入变量在解释富裕国家之间的官方发展援助支出水平方面存在竞争。竞争控制是指通过拆分其解释能力来与感兴趣的自变量竞争的控制变量。从国民收入的角度来看,欧洲身份是一个竞争控制。另一方面,从欧洲身份的角度来看,国民收入是一个竞争控制。它们都竞争着解释同一个事实,即富裕的欧洲国家的官方发展援助支出比其他国家更高。这在图 7-5 中有说明。模型 3 中国民收入系数仍然显著,而欧洲身份系数不显著这一事实表明,国民收入是官方发展援助支出这两个预测指标中更强的那个。多元回归模型中的任何自变量都可以从其他自变量的角度来看待为控制变量。是否应该将某个变量视为控制变量取决于研究人员的判断。如果某个变量的使用意图是在保持不变的情况下,以揭示另一个变量的真实影响,那么它就是一个控制变量。如果某个变量本身具有研究意义,那么它就不是。从纯粹的统计角度来看,多元回归模型中的每个自变量都是模型中所有其他变量的控制变量。从社会科学的角度来看,如果研究人员认为某个变量是控制变量,那么它就是控制变量,反之亦然。

7.4. 控制误差(可选/高级)控制变量通常用于保持不变或控制一个变量,以试图了解另一个变量的真实影响。根据情况,控制变量可能对感兴趣变量的观察系数没有影响,也可能补充或竞争感兴趣的变量。在所有这些情况下,控制变量的影响是直观的,易于观察:感兴趣变量的观察斜率发生变化(或者,在无效控制变量的情况下,不发生变化),以响应控制变量的包含。似乎这三种可能性(补充、竞争、无影响)是控制变量的唯一可能影响,但实际上,控制变量影响回归模型还有另一种方式。控制变量可能会减少模型中的误差量。图 7-13 说明了这种情况。图 7-13 中的模型 1 重复了图 4-8 中加拿大省份吸烟率与平均气温的回归。吸烟率随着气温的升高而下降。气温每升高 1 华氏度,与吸烟率下降 0.44% 相关联,并且此结果在统计上高度显著。图 7-13 中的模型 2 从模型 1 中取简单的回归,并增加了对重度饮酒率的控制。在包括加拿大在内的所有富裕国家,酒精消费与吸烟密切相关(有趣的是,在许多贫困国家并非如此)。在模型 2 中控制重度饮酒率对气温的斜率没有任何影响,气温的斜率仍然为 -0.44。但是,它确实影响了气温的斜率标准误。

图 7-13. 2008 年 13 个加拿大省份和地区的吸烟率与气温以及重度饮酒率的线性回归(数据来自图 4-8)

在模型 1 中,气温的斜率标准误为 0.087,但在模型 2 中,标准误下降至 0.062。模型 2 中较小的标准误导致较大的 t 统计量。在本例中,气温对吸烟率的影响已经是高度显著的(气温的真实斜率为 0 的概率小于 0.001),因此较高的 t 统计量不会改变我们对模型的解释。尽管如此,与模型 1 相比,气温的斜率在模型 2 中更具有统计学意义。为什么在引入控制变量后,斜率的标准误会下降?重度饮酒与气温完全无关,但与吸烟率相关。事实上,重度饮酒占了吸烟率总变异性的重要部分。因此,模型 2 中的模型误差小于模型 1。标准误是自变量与因变量之间关系强度、用于估计模型的案例数量以及模型中误差量的函数。从模型 1 到模型 2,关系强度没有改变(仍然为 -0.44),案例数量没有改变(仍然为 13),模型误差量已下降(由于重度饮酒的影响)。净效应是与气温相关的标准误已下降。在控制重度饮酒后,气温是吸烟的一个更重要的预测指标。

7.5. 案例研究:撒哈拉以南非洲儿童死亡率在非洲每 1000 个出生的孩子中,只有 850 个能活到 5 岁生日。这种 150/1000 的死亡率令人震惊地高。相比之下,富裕国家的儿童死亡率通常在每 1000 个孩子中 5-6 个左右。美国是发达国家中儿童死亡率最高的国家,到 5 岁时,每 1000 个孩子中会有 7.7 个死亡。非洲国家的儿童死亡率通常是发达国家的 20 倍。图 7-14 报告了 44 个撒哈拉以南非洲国家的儿童死亡率及相关统计数据。除了元数据项之外,还包括四个变量:MORT - 每 1000 个出生婴儿的 5 岁以下死亡率INCOME - 每人国民收入(以美元计)FERT - 出生率(育龄妇女的平均生育数)IMMUN - DPT(白喉-百日咳-破伤风)儿童免疫率儿童死亡率的多因素模型将预测,儿童死亡率应该随着收入的增加而下降(富裕国家应该有较低的死亡率),随着免疫的提高而下降(免疫效果更好的国家应该有较低的死亡率),并且随着生育率的提高而上升(生育率更高的国家应该有较高的死亡率)。

图 7-14. 2008 年 44 个非洲国家的儿童死亡率及相关统计数据(世界银行数据)

图 7-15 报告了三个用于预测撒哈拉以南非洲儿童死亡率的回归模型的结果。模型 1 是一个简单的线性回归模型,只有一个预测变量,即国民收入。每增加 1000 美元的国民收入,与该国每 1000 个出生婴儿中儿童死亡率下降 6.84 个相关联。此结果在统计上高度显著。

图 7-15. 2008 年 44 个非洲国家的儿童死亡率回归模型(世界银行数据)

图 7-15 中的模型 2 和模型 3 是多元线性回归模型。模型 2 将 DPT 免疫率作为控制变量引入。包含 DPT 免疫率实际上将国民收入的斜率从 6.84 增加到 8.49。这表明 DPT 免疫率与国民收入是互补的。与直觉相反的是,非洲的免疫率随着国民收入的上升而下降,部分原因是在更富裕的非洲国家,父母抵制免疫。因此,控制免疫揭示了国民收入在降低儿童死亡率方面更强大的影响。模型 3 引入了出生率作为控制变量。控制出生率极大地降低了国民收入的斜率。实际上,模型 3 中国民收入的斜率与 0 并没有显著差异。出生率与国民收入作为解释儿童死亡率的解释因素强烈竞争。它还与 DPT 免疫竞争。模型 3 中 DPT 免疫的斜率比模型 2 中小得多,但仍然具有统计学意义。如何降低非洲的儿童死亡率?显然,更高的收入不会有害,但模型 3 表明,免疫和计划生育在降低儿童死亡率方面将更有效。这是一个好消息,因为社会科学家对改善免疫和计划生育方法的了解比对提高收入方法的了解要多得多。模型 3 表明,富裕国家的官方发展援助(ODA)支出应该重点放在扩大免疫和计划生育项目,以支持非洲家庭努力改善其孩子的健康状况。

第 7 章 关键术语

[edit | edit source]
  • 补充控制是在多元回归模型中,补充感兴趣的自变量,从而揭示其解释力的控制变量
  • 竞争控制是在多元回归模型中,与感兴趣的自变量竞争,从而分割其解释力的控制变量
  • 控制变量是在多元回归分析中,“保持不变”的变量,以突出特定感兴趣自变量的影响
  • 多因素模型具有一个因变量但有两个或更多自变量的统计模型
  • 多元线性回归模型统计模型,其中因变量的预期值被认为会随着两个或更多自变量的值而呈直线上升或下降
  • 预测变量回归模型中的自变量

第 6 章 · 第 8 章

华夏公益教科书