跳转到内容

社会统计/第 4 章

来自维基教科书,开放世界中的开放书籍

平均值和标准差

[编辑 | 编辑源代码]

北美人、欧洲人、日本人、澳大利亚人、韩国人、新西兰人以及其他一些国家的人民非常幸运。尽管个人生活可能很艰难,但我们的国家非常富裕。如果我们在富裕世界中存在贫困、无家可归和营养不良等问题,那是因为我们选择拥有这些问题。我们可以始终选择花钱来确保每个人都能过上体面的生活。我们可能选择不花钱,但至少我们有选择权。世界富裕国家的国民人均收入通常为每年 30,000 至 45,000 美元,而世界所有富裕国家都实行民主政府。如何使用我们的资源取决于我们自己。在世界上许多较贫穷的国家,根本不存在足够的资源来确保每个人都能过上体面的生活水平。更糟糕的是,其中许多国家不是民主国家,因此即使资源存在,人们也不一定拥有权力选择公平地分享资源。因此,世界上超过三分之一的 5 岁以下儿童因营养不良而发育迟缓(身高低于预期)。世界上超过 20% 的人口无法定期负担食物。世界上大约 40% 的人口,即约 25 亿人,在需要上厕所时,实际上是在地上排便。另外 30% 的人使用旱厕。世界上只有大约 30% 的人口拥有带自来水的厕所。如果浴室里没有自来水,你擦完后就很难用水冲洗。大多数富裕国家都努力帮助改善世界贫困人口的条件。图 4-1 展示了富裕国家海外发展援助(ODA)预算的一些基本数据。海外发展援助是指一个国家为帮助贫困国家人民而支出的援助资金。该数据库整合了世界银行和经济合作与发展组织(OECD)的数据。数据库中的案例包括世界上 20 个最富裕的国家,包括美国。其中包含两项元数据项目,即国家的名称和三位国家代码。还包括四个变量:AID/GNP - 一个国家 ODA 支出与其总国民收入的比率 ADMIN/AID - 一个国家用于行政成本的援助比例 MIL/GNP - 一个国家军事支出与其国民收入的比率 GDP_2008 - 一个国家的人均国民收入水平 EUROPEAN - 一个国家是欧洲国家(1)还是非欧洲国家(0)的指标

图 4-1。2008 年 OECD 和世界银行来源的 20 个富裕国家海外发展援助(ODA)数据库及相关数据

图 4-2 按 ODA 支出慷慨程度对图 4-1 中包含的 20 个富裕国家进行排名。与其他富裕国家相比,美国排名垫底。美国在援助上的支出(占其总收入的比例)低于任何其他国家,为 0.19%。其他国家更加慷慨,但并没有慷慨太多。澳大利亚和加拿大每 100 美元捐赠 34 美分。法国和德国捐赠 40 美分。挪威、卢森堡和瑞典是最慷慨的国家,它们将大约 1% 的总国民收入捐赠给帮助他人。为了与世界上最慷慨的国家相匹配,美国必须将其年度 ODA 支出增加五倍。

图 4-2。2008 年 20 个富裕国家的援助慷慨程度排名

图 4-2 清楚地表明,ODA 支出中一个有趣的模式是所有最慷慨的国家都是欧洲国家。我们可以从这一观察结果中概括推断,欧洲国家地位是 ODA 支出水平的重要决定因素。图 4-3 报告了 ODA 支出对欧洲国家地位进行回归的结果。截距为 0.27,这是当欧洲国家地位 = 0 时 ODA 支出的预期值。换句话说,富裕的非欧洲国家往往将其国民收入的约 0.27% 用于捐赠。图 4-3 中的回归系数也可以用来计算欧洲国家的 ODA 支出预期值。对于欧洲国家,欧洲国家地位 = 1,因此 ODA 支出 = 0.27 + 0.33 x 1 = 0.60% 的国民收入。该预期值可用于预测不在数据库中的富裕欧洲国家的 ODA 支出,如列支敦士登。根据图 4-3 中报告的回归,列支敦士登的 ODA 支出预测值为其国民收入的 0.60%。由于列支敦士登是一个欧洲国家(欧洲国家地位 = 1),因此该预测是内插而不是外推。

图 4-3。2008 年 ODA 支出对欧洲国家地位进行回归

图 4-4 描绘了欧洲国家地位与 ODA 支出之间关系的散点图。图形上已绘制了一条回归线。还标注了非欧洲国家和欧洲国家的 ODA 支出预期值。与任何回归模型一样,图 4-4 中绘制的回归线通过数据散点的中间。与第 1 章和第 2 章中的散点图唯一不同的是,图 4-4 中的自变量仅取两个值。因此,所有点都排在欧洲国家地位 = 0 或欧洲国家地位 = 1 之上。这对回归线的意义或其计算方式没有影响。该线仍然代表给定自变量(欧洲国家地位)水平下因变量(ODA 支出)的最可能值。同样,与回归线的偏差仍然代表误差。

图 4-4。2008 年 ODA 支出与欧洲国家地位

本章解释了如何使用预期值和误差来描述和比较变量。首先,即使只有一个变量,也可以有预期值,而无需使用线性回归模型(第 4.1 节)。介绍了一种新模型,即均值模型,用于定义当分析中不涉及其他变量时变量的预期值。其次,任何预期值都与误差相关联,因为在大多数情况下,变量的值不等于其预期值(第 4.2 节)。在均值模型和回归模型中,误差相互抵消,平均值为零。第三,在均值模型和回归模型中,都可以使用标准差来衡量误差的大小(第 4.3 节)。统计模型中使用的大多数数据都落在误差的标准差范围内。可选部分(第 4.4 节)演示了统计计算机程序如何实际计算标准差。最后,本章以中国 33 个政治区域的收入和就业水平的应用案例研究作为结尾(第 4.5 节)。该案例研究说明了如何使用平均值来比较变量。它还展示了回归标准差与变量标准差的关系。本章所有关键概念都在该案例研究中使用。在学习完本章后,你应该对误差在统计模型中所起的作用有更深入的了解。

4.1. 均值模型 如图 4.4 所示,回归模型可用于计算非欧洲国家或欧洲国家的海外发展援助(ODA)的预期值。因变量对特定案例组(如非欧洲国家或欧洲国家)的预期值称为条件均值。条件均值是因变量对特定案例组的预期值。图 4-5 说明了使用条件均值的另一个示例。图 4-5 描绘了使用 2008 年美国收入与计划参与调查(SIPP)第二波数据对 20-29 岁的美国受雇人员进行的工资收入与性别之间的散点图和回归。SIPP 数据库包含 4964 个案例(2208 名女性和 2756 名男性)。由于数量太多,无法在散点图上绘制,因此图 4-5 绘制了 100 个随机案例(46 名女性和 54 名男性)来说明数据的形式。

图 4-5。2008 年 100 名 20-29 岁的受雇 SIPP 受访者的随机样本的工资收入与性别

图 4-6 报告了收入对性别的回归系数。在这个回归模型中,自变量是性别(编码为“男性气质”:女性为 0,男性为 1),因变量是工资收入(定义为通过工作获得的收入,计算为 SIPP 中记录的月收入的 12 倍)。回归模型的截距为 33876,斜率为 4866。换句话说,回归线的方程为 Income = 33876 + 4966 x Male。对于女性(Male = 0),工资收入的预期值为 33876 + 4966 x 0 = 33876 + 0 = 33,876 美元。对于男性(Male = 1),工资收入的预期值为 33876 + 4966 x 1 = 33876 + 4966 = 38,842 美元。换句话说,女性的条件平均收入为 33,876 美元,而男性的条件平均收入为 38,842 美元。

图 4-6。收入对男性气质回归结果表(来自图 4-5,但使用所有 4964 个案例的数据)

如果可以根据人们的性别计算条件平均收入,那么应该可以计算出人们总体收入的平均值。平均值是变量的预期值。如果我们将 SIPP 数据库中的所有 4964 人整合到一个大组中,并计算其收入的预期值,会发生什么?结果将类似于图 4-7,该图将图 4-5 中的 46 名女性和 54 名男性归入一个名为“人”的类别中。

图 4-7。2008 年 100 名 20-29 岁的受雇 SIPP 受访者的随机样本的工资收入

所有 4964 名年龄在 20-29 岁之间的受雇美国人的平均收入为 36,633 美元。平均收入可以通过将所有 4964 人的收入加起来并除以 4964 来计算。这也就是大多数人所称的变量的“平均”值。社会科学家通常使用“平均”一词来代替“平均”一词,因为“平均”也可以意味着“典型”或“普通”。“平均”一词始终只表示一个意思:它是变量的期望值,通过将变量所有个体情况的值加起来并除以情况数量来计算。平均值不仅仅是一个数学计算结果。就像所有 20 多岁的人的平均收入为 36,633 美元一样,女性的平均收入(33,876 美元)和男性的平均收入(38,842 美元)可以通过将数据库中所有女性或男性的收入加起来并除以女性或男性的数量来计算。图 4-6 中回归模型中女性和男性收入的条件平均值与女性和男性的个人收入平均值相同。不同之处在于,使用回归模型计算条件平均值既提供了方程,也提供了用于将条件平均值视为预测值的统计模型。根据收入的回归模型(图 4-6),预计任何受雇的 20 多岁的美国女性的收入为 33,876 美元。预计任何受雇的 20 多岁的美国男性的收入为 38,842 美元。如果 SIPP 数据库中没有包含有关性别的信息,那么预计一般受雇的 20 多岁的美国人的收入是多少?显然,答案是 36,633 美元,即数据库中所有 4964 人的平均收入。这种预测背后的统计模型是平均值模型。平均值模型是非常简单的统计模型,其中变量只有一个期望值,即其平均值。平均值模型可以被认为是没有任何自变量的线性回归模型。如果您将图 4-5 中的所有数据压缩成一个组,就像图 4-7 中那样,您将线性回归模型变成平均值模型。使用平均值模型作为统计模型与仅通过将所有值加起来并除以情况数量来计算平均值之间的主要区别在于您如何看待它。在平均值模型中,平均值是一个期望值,而不仅仅是一堆算术。每次个体情况偏离平均值时,该偏差都是一种误差形式。在线性回归模型中,回归误差是因变量的期望值与其实际值之间的差异程度。在平均值模型中,误差是变量的平均值与其实际值之间的差异程度。在平均值模型中,如果一个人每年收入 30,000 美元,则该收入可以分为两部分:平均收入(36,633 美元)和误差(6633 美元)。如果另一个人每年收入 40,000 美元,则该收入可以分为两部分:平均收入(36,633 美元)和误差(3367 美元)。在平均值模型中,您的收入不仅仅是您的收入。您的收入是由像您这样的人的平均收入加上或减去一些误差组成的。

4.2. 模型、参数和自由度吸烟造成的可预防性残疾和死亡人数比任何其他人类活动都要多。这对世界卫生来说是一个极其重要的挑战。在加拿大,约 17.9% 的成年人自认为是吸烟者(2008 年加拿大卫生部数据)。图 4-8 中的数据库总结了加拿大 13 个省和地区的吸烟率、大量饮酒率和气温。这 13 个政治区划的平均吸烟率为 20.3%。这与全国总平均值不同,因为几个人口少的省和地区的吸烟率很高。加拿大各省和地区的吸烟率平均值模型表明,吸烟率等于期望值 20.3% 加上或减去每种情况下的误差。

图 4-8. 加拿大 13 个省和地区的吸烟数据,2008 年

平均值模型是了解吸烟率的一种非常简单的方法。它说明了吸烟率的某些情况——并非 0% 或 50%——但没有说明吸烟率为何在各省之间存在差异。各省之间吸烟率的所有变化都被视为模型中的误差。回归模型可能有助于解释加拿大 13 个省和地区之间吸烟率差异的一些原因。关于吸烟率差异的一种理论可能是,吸烟率取决于天气。加拿大很冷。加拿大 13 个省和地区首府的年平均气温低于华氏 38 度。这比纽约(57 度)、芝加哥(51 度)或洛杉矶(66 度)冷得多。即使是明尼阿波利斯(年平均气温 45 度)和法戈(41 度)也比加拿大大部分地区温暖。一种理论可能是,有些人吸烟是因为他们在寒冷的天气里不能出去玩而感到无聊。基于该理论的一个具体假设是,吸烟率随着平均气温的下降而上升。使用年平均气温作为自变量,吸烟率作为因变量的回归模型结果如 图 4-9 所示。

图 4-9. 2008 年加拿大 13 个省和地区的吸烟率与平均气温的回归关系

37.00 的截距意味着年平均气温为 0 度的省份的预期吸烟率为 37.0%。由于加拿大的任何省份都没有这么冷,因此截距是外推值。从 37.0% 的截距开始,预期吸烟率值每升高 1 度就会下降 0.44%。正如吸烟的无聊理论所预测的那样,吸烟率随着气温的升高而下降。哪种模型更适合理解吸烟率,平均值模型还是线性回归模型?两者都提供期望值。吸烟的平均值模型和回归模型之间的关系在图 4-10 中绘制。图 4-10 的左侧描绘了吸烟的平均值模型,将所有省份排成一列,就像图 4-7 中的 SIPP 响应者一样。图 4-10 的右侧描绘了吸烟的回归模型,根据各省的气温将它们分散开来。箭头显示了平均值模型中的数据点如何对应于四个示例省份的回归模型中的数据点。在加拿大各省吸烟的情况下,回归模型似乎比平均值模型更好地解释了吸烟情况。鉴于可以获取气温数据,回归模型似乎比平均值模型更有用。

图 4-10. 加拿大 13 个省和地区的吸烟率平均值模型和回归模型示意图,2008 年

图 4-10 中的平均值模型仅使用一个数字(平均值)提供整体吸烟水平的期望值,而回归模型使用两个数字(截距和斜率)为每个省份提供不同的吸烟期望值。这些数字称为参数。参数是与统计模型相关的数字,例如平均值和回归系数。计算参数(如平均值和回归系数)需要数据。在加拿大各省数据(图 4-8)中,有足够的数据来计算平均值和回归系数。通常,拥有足够的数据来计算模型参数并不是问题,但当数据点很少时,就会出现问题。如果您有一个只有一个情况的数据库会怎样?例如,您可能想要研究 2010 年的世界人口。世界人口约为 67 亿。您可以使用平均值模型来模拟世界人口吗?是的,2010 年世界人口的平均值为 67 亿。该平均值模型中没有误差,因为只有一个情况——世界——并且其实际人口等于平均值。在一个只有一个情况的数据库中,可以计算平均值模型的 1 个参数,即平均值。您可以使用线性回归模型来研究 2010 年的世界人口吗?您可能会假设人口与降雨量有关。如果世界只是一个大而干旱的沙漠,预计它的人口会很少。如果世界是一个郁郁葱葱的绿色天堂,预计它的人口会很多。这是一个好主意,但问题是只有一个世界可以研究。当只有一个世界可以研究时,不可能计算降雨量对世界人口的影响。回归模型需要计算两个参数,结果是,您必须拥有至少两个情况的数据库才能同时计算斜率和截距。如果您有一个有两个情况的数据库会怎样?例如,您可能想要模拟朝鲜人口。有两个朝鲜国家,朝鲜和韩国。朝鲜人口为 2400 万,而韩国人口为 4800 万。使用平均值模型,朝鲜国家人口的期望值为这两个情况的平均值,即 3600 万。朝鲜和韩国的误差均为 1200 万(朝鲜的人口比平均值少 1200 万,而韩国的人口比平均值多 1200 万)。即使看起来这两个情况都有独立的误差,但实际上模型中只有一个误差水平。如果朝鲜比平均值低 1200 万,则韩国必须比平均值高 1200 万才能平衡它。有两个误差,但只有一个可以自由变化。这个奇怪的数学事实意味着,在平均值模型中,每个情况都不能自由随机变化。如果一个变量有 2 个情况,并且您知道变量的平均值,那么只有一个情况可以自由变化。另一个情况必须平衡第一个情况。如果有三个情况,那么只有两个可以自由变化。更一般地说,如果有 N 个情况,并且您知道平均值,那么只有 N-1 个情况可以自由变化。这个数字 N-1 称为平均值模型的自由度。自由度是模型中实际上可以自由变化的误差数量。平均值模型的自由度为 N-1,因为平均值模型只有一个参数,即平均值。另一方面,回归模型的自由度为 N-2,因为回归模型有两个参数(斜率和截距)。这意味着数据库中必须至少有两个情况才能使用回归模型。由于大多数数据库有几十个或数百个情况,因此这通常不是问题。自由度的主要用途是在对误差进行统计计算。统计模型中的总误差量取决于总自由度数量,而不是取决于总情况数量。统计计算机程序在计算与统计模型相关的许多数字时使用自由度,并且通常将模型的自由度作为其模型结果输出的一部分进行报告。不过,基本思想是,任何统计模型都会为其计算的每个参数消耗一个自由度。基于 N 个情况的具有 1 个参数的平均值模型具有 N-1 个自由度。具有 2 个参数的线性回归模型具有 N-2 个自由度。任何模型都不能具有负的自由度,因此至少需要 1 个情况才能使用平均值模型,至少需要 2 个情况才能使用回归模型。

4.3. 标准差和回归误差 所有使用参数生成预期值的统计模型(如平均值模型和线性回归模型)都会产生模型误差。 这仅仅意味着统计模型通常无法完美地描述世界。 所有统计模型都是对现实世界的简化,因此它们都存在误差。 平均值模型中的误差通常被称为误差或与平均值的偏差,而回归模型中的误差通常被称为回归误差。 在平均值模型中,模型无法解释变量中的任何变异性。 平均值模型只有一个参数,即平均值,变量中的所有变异性都成为平均值模型中的误差。 因此,误差值的分布与变量本身的分布一样宽。 这种分布可以进行测量并表示为一个数字。 最常用的变量分布度量是标准差。 标准差是衡量变量分布程度的指标,它与平均值模型中误差的分布程度相同。 变量的标准差(或平均值模型中误差的标准差)取决于两个因素:平均值模型中的误差量和平均值模型中的自由度。 对于 13 个加拿大省份和地区的吸烟率,标准差为 5.3%。 在线性回归模型中,因变量中的一部分变异性是由自变量的变异性所解释的。 这在图 4-10 中得到了说明,其中 13 个加拿大省份和地区的吸烟率分布在他们平均年气温水平上。 如果仔细观察图 4-10,你会发现回归误差(回归线上的预期值与图表右侧吸烟率的实际值之间的差异)看起来比吸烟率的总体变异性(来自图表左侧)要小得多。 吸烟变异性的一部分用于回归线,而吸烟变异性的一部分用于误差。 因此,回归模型中的总体误差水平始终小于相应的平均值模型中的总体误差水平。 图 4-11 对加拿大省级吸烟数据比较了两种模型的误差。 图 4-11 中的表格显示了平均值模型和回归模型中每个省份的预期值和相关误差。 平均值模型中的预期值始终为 20.3%(平均值)。 回归模型中每个省份的预期值是根据吸烟率与气温回归方程计算的(图 4-9)。 如图 4-11 中的表格所示,回归模型中的误差通常比平均值模型中的误差小。 对于误差最大的省份,这种差异最大。 回归模型中最大的误差为 5.8%(育空地区)。 在平均值模型中,四个不同的省份(包括育空地区)的误差大于 5.8%。

图 4-11. 2008 年,对 13 个加拿大省份和地区的吸烟率,平均值模型和回归模型中模型误差的比较

回归模型中模型误差的标准差为 3.1%。 这被称为回归模型标准差。 回归误差标准差是衡量回归模型中误差分布程度的指标。 回归误差标准差基于回归模型中的误差和回归模型的自由度。 对于给定的回归模型,回归误差标准差几乎总是小于相应的平均值模型的标准差。 事实上,回归模型的系数(斜率和截距)的选择方式是为了产生尽可能低的回归误差标准差。 标准差测量模型中误差的分布程度。 较高的标准差意味着更大的误差。 图 4-12 说明了加拿大省级吸烟率的平均值模型和回归模型中误差的分布。 图 4-12 中绘制的误差数据直接取自图 4-11 中的两个误差列。 图表上标出了误差最大的部分省份和地区。 在每个模型中,大多数省份和地区的误差都落在零的一个标准差范围内。 平均值模型的误差标准差为 5.3%,13 个省份中有 9 个落在 +5.3% 和 -5.3% 之间。 所有 13 个省份都落在两个标准差范围内(+10.6% 和 -10.6% 之间)。 图 4-12. 对 13 个加拿大省份和地区的吸烟率,平均值模型和回归模型中标准差和回归误差标准差的说明,2008 年

对于回归模型,误差标准差更小,但仍然有 13 个省份中有 9 个落在他们预期值的标准差范围内,误差范围在 +3.1% 和 -3.1% 之间。 同样,所有 13 个省份的模型误差都落在两个标准差范围内(+6.2% 到 -6.2%)。 没有规定误差必须落在两个标准差范围内,但通常情况下是如此。 通常,模型结果看起来类似于图 4-12,大多数预期值落在其观察值的标准差范围内(误差小于一个标准差),绝大多数预期值落在其观察值的两个标准差范围内(误差小于两个标准差)。 当模型的误差标准差很小,这意味着模型能够产生良好、准确的因变量估计值。

4.4. 计算方差和标准差(可选/高级) 很少需要计算变量或平均值模型或线性回归模型中误差的方差和标准差。 统计计算机程序、电子表格程序,甚至计算器都能计算标准差。 另一方面,与计算回归系数不同,计算标准差并不太难。 计算变量标准差有六个步骤。 它们是: (1) 计算变量的平均值 (2) 计算变量每个案例的平均值偏差 (3) 对这些偏差进行平方 (4) 将所有偏差相加,得到总平方偏差 (5) 将总平方偏差除以自由度,得到方差 (6) 对方差开方,得到标准差 这六个计算标准差的步骤在图 4-13 中得到了说明,图中使用了关于纽约市每个区地铁站数量的数据。 包括史坦顿岛铁路的 22 个车站作为地铁车站,五个区共有 490 个车站。 将 490 除以 5,得到每个区的平均地铁站数量为 98(步骤 1)。 表格中给出了每个区与该平均值 98 站的偏差(步骤 2)。 偏差右侧是平方偏差(步骤 3)。 这些平方偏差的总和为 14434(步骤 4)。 由于有五个区,并且图 4-13 中的偏差是与平均值模型的偏差(而不是回归模型),所以有 4 个自由度(5 - 1 = 4)。 将总平方偏差除以自由度(14434 / 4)得到每个区地铁站数量的方差。

图 4-13. 计算 2010 年纽约市每个区地铁站数量的标准差

方差有时代替标准差作为衡量变量分布程度的指标。 方差的问题在于它在直观上意义不大。 例如,图 4-13 中地铁站数量的方差为 14434。 由于方差是平方偏差的总和,所以它以平方单位表示。 因此,图 4-13 中的方差实际上是 14434 个平方车站。 由于不存在平方车站,所以对方差开方是有意义的。 对方差开方得到标准差。 图 4-13 中的标准差代表车站数量。 纽约市每个区地铁站的数量的平均值为 98 个车站,标准差为 60.1 个车站。 计算回归误差标准差的工作方式与计算标准差完全相同,只是自由度等于 N-2 而不是 N-1。 自由度的这种差异是回归误差标准差有可能(尽管不太可能)大于平均值模型的标准差的原因。 回归模型的预期值始终比平均值模型的预期值更接近因变量的观察值。 这是因为回归模型的预期值是变化的,而平均值模型的预期值是恒定的(它们只是平均值)。 由于回归预期值更接近因变量的观察值,因此它们的误差(偏差)更小,它们的平方误差(偏差)也更小。 但是,回归模型的自由度也更小(N-2 而不是 N-1)。 只有可能较小的自由度可以抵消较小的平方误差,从而产生较大的方差。 作为一项规则,线性回归模型的误差标准差始终小于平均值模型,除非斜率和案例数量(N)都非常小。 当斜率很小时,回归模型的预期值与平均值模型的预期值相差不大:两者都是恒定的,或几乎如此。 当案例数量很小时,自由度的差异可能足够大以至于很重要(4 和 3 之间的差异比 4000 和 3999 之间的差异更重要)。 在实践中,这种情况(几乎)永远不会发生。 当有数据可用以使用回归模型计算预期值和预测值时,这些值(几乎)始终比平均值模型的预期值或预测值要好。 只有在没有数据可用于使用线性回归模型进行预测时,才会使用平均值模型。

4.5. 案例研究:中国的收入和工资就业 自 1990 年代后期以来,中国一直经历着极其快速的经济增长。尽管如此,中国作为一个整体仍然是一个相对贫穷的国家。其平均收入水平不到墨西哥的一半。世界各地贫穷国家的一个特点是,许多人靠耕种土地自给自足,而不是靠工资工作。随着收入的增加,越来越多的人离开土地,到工厂和其他提供工资报酬的工作场所寻求就业。如今,中国每年有数百万人从小型农业村庄迁往新的城市地区,从自给自足的农业转变为工资劳动。社会学家争论人们是作为自给自足的农民过得更好,还是作为工资劳动者过得更好,但无论哪种方式,趋势都是不可否认的。每年有数百万人加入中国工资劳动者的行列。与加拿大和澳大利亚一样,中国也拥有多种行政划分。在中国,有 4 个直辖市(全国最大的城市)、22 个省和 5 个“自治区”,这些地区拥有大量少数民族人口,并拥有与普通省份不同的行政程序。此外,还有两个“特别行政区”(香港和澳门)由于历史原因,不包括在许多中国数据中。此外,中国声称拥有但并未控制台湾岛。总而言之,大多数中国数据集都包含 31 个主要部门的变量,不包括香港、澳门和台湾。图 4-14 再现了一个包含这些 31 个部门的人口、收入和就业数据的数据库。

图 4-14. 2008 年中国城市、省份和地区的劳动力参与率的条件均值

图 4-14 中的两个变量对于理解从自给自足的农业向工资劳动的转变尤为有趣。INC$2008 变量是每个行政部门的工资劳动者的平均收入水平,而 EMP(%) 变量是劳动力参与率(每个部门中从事正式工资劳动的比例)。图 4-15 绘制了按部门类型(直辖市、省份或地区)条件化的收入条件均值水平。图表显示了每种类型部门(直辖市、省份或地区)的平均收入水平。四个直辖市的收入远高于省份和地区,但有一个相对贫困的直辖市重庆,它位于中国中部腹地。有一个明显富裕的地区,西藏,但实际上西藏相对贫困。西藏的极高生活成本使得工资水平高于其他地方。

图 4-15. 2008 年中国城市、省份和地区的劳动力参与率的条件均值

图 4-16 对比了中国 22 个省份的两种劳动力参与模型。图 4-16 专注于省份,因为与其他部门相比,省份更多,而且直辖市和地区在很多方面都与省份不同。图 4-16 的左侧显示了一个具有 21 个自由度的劳动力参与(标记为 LFP)的平均模型。22 个省份的劳动力参与平均水平为 54.4%,标准差为 6.9%。除浙江外,所有省份的劳动力参与率都在平均值的两个标准差之内。图 4-16 的右侧显示了一个具有 20 个自由度的线性回归模型,该模型将劳动力参与(因变量)回归到平均收入水平(自变量)。该模型的参数在图 4-17 中报告。

图 4-16. 2008 年中国 22 个省份的劳动力参与率的平均模型和回归模型
图 4-17. 2008 年中国 22 个省份的劳动力参与率对省级平均收入的回归

回归模型的斜率为 6.3,这意味着工资率每上涨 1000 美元,劳动力参与率的预期值就会上涨 6.3%。该模型的回归误差标准差为 3.4%,不到平均模型标准差 6.9% 的一半。回归模型的强正斜率和低误差水平表明,回归模型比平均模型更好地反映了劳动力参与情况。中国各省的劳动力参与率至少在一定程度上确实随着工资收入的增加而上升。

第四章 关键词

[edit | edit source]
  • 条件均值是指特定组案例的因变量的预期值
  • 自由度是指模型中实际上可以自由变化的误差数量
  • 平均模型是指非常简单的统计模型,其中一个变量只有一个预期值,即其平均值
  • 平均值是指变量的预期值
  • 参数是指与统计模型相关的数字,例如平均值和回归系数
  • 回归误差标准差是指衡量回归模型误差中扩散程度的指标
  • 标准差是指衡量变量扩散程度的指标,与平均模型误差的扩散程度相同

第三章 · 第五章

华夏公益教科书