跳转到内容

社会统计学/第5章

来自Wikibooks,开放世界中的开放书籍

统计模型中误差的作用

[编辑 | 编辑源代码]

美国在种族歧视和压迫方面有着漫长而充满问题的历史。直到1865年,奴隶制在美国普遍存在,富有的白人合法地拥有、压迫和虐待黑人。在接下来的一个世纪,即1865年至1964年间,基于种族的学校、企业和其他公共场所的隔离是合法的,在该国许多地区,黑人被禁止充分参与社会。如今,任何年龄超过50岁的美国人都是在种族隔离的国家出生的,这个国家没有给予其黑人公民平等的权利。毫不奇怪,尽管美国第一位黑人总统当选,但种族歧视仍然是美国的一个主要问题。毕竟,巴拉克·奥巴马本人就是在法律上实行种族隔离的美国出生的。美国种族歧视历史悠久的一个结果是黑人和白人之间持续存在的工资差距。即使在官方种族隔离结束很久以后出生的黑人,其收入也远低于同龄的白人。我们可以使用2008年美国收入与项目参与调查 (SIPP) 的数据来说明工资中的种族差距。2008年SIPP的第二波数据包含了4964名20-29岁受雇美国人的工资收入数据(其中633人为黑人,4331人为白人)。SIPP样本的总体平均收入为36,633美元,标准差为29,341美元。图5-1报告了SIPP样本中633名黑人和4331名白人的条件平均收入。黑人的平均收入比白人的平均收入低6656美元。

图5-1。2008年按种族划分的20多岁受雇美国人的工资收入均值和标准差(SIPP数据)

在针对黑人工资收入的均值模型中,20多岁美国黑人的工资收入的期望值为30,826美元。从该模型的角度来看,低于或高于30,826美元的观察收入将是误差。误差的标准差(22,723美元)表明,美国黑人的实际收入存在很大的差异。20多岁美国白人的工资收入期望值为37,482美元。模型的标准差(30,096美元)表明,白人收入的差异比黑人更大。针对美国黑人的均值模型使用一个参数(其均值)并基于633个案例,因此它具有632个自由度。针对美国白人的均值模型有4331个数据点和1个参数,因此它具有4330个自由度。这两个模型都具有足够的自由度(超过10个左右就可以了)。另一种对黑人和白人美国人之间收入差异进行建模的方法是使用回归模型。图5-2报告了收入对种族的回归系数。在这个回归模型中,自变量是种族(编码为“黑度”:白人为0,黑人为1),因变量是工资收入。回归模型的截距为37482,斜率为-6656。换句话说,回归线的方程为收入 = 37482 - 6656 x 黑人。对于白人(黑人 = 0),工资收入的期望值为37842 - 6656 x 0 = 37482 + 0 = 37,842美元。对于黑人(黑人 = 1),工资收入的期望值为37842 + 6656 x 1 = 33876 - 6656 = 30,826美元。回归模型中的这些期望值与图5-1中两个均值模型的条件均值相同。

图5-2。2008年20多岁美国人工资收入对种族的回归(SIPP数据)

回归模型使用了所有4964个案例,并具有2个参数,使其具有4962个自由度。回归模型中的回归误差标准差为29,263美元(回归模型标准差通常不会在结果表中报告,但可以使用统计软件程序计算)。回归线的斜率代表了收入中的种族差距。斜率为负意味着SIPP样本中的黑人报告的收入低于SIPP样本中的白人。这是否意味着种族歧视仍在继续?这很难说。较高的回归误差标准差意味着人们的收入存在很大差异,回归模型没有捕捉到这些差异。观察到的6656美元的种族差距似乎相当大,但需要进一步分析才能确定它是否真正代表了美国社会中真实的种族差异。

本章在均值和回归模型的背景下介绍了统计推断的概念。首先,推断统计用于对整个社会世界做出结论(第5.1节)。这与描述性统计形成对比,描述性统计仅描述数据库中实际观察和记录的数据。其次,所有推断统计都基于这样一个理念,即观察数据中表示的模型误差是从现实世界中可能发生的全部误差中随机抽取的样本(第5.2节)。不同类型的非随机抽样对模型参数有不同的影响。第三,统计模型中估计的所有参数都与误差相关联(第5.3节)。参数估计中的误差称为标准误差。可选部分(第5.4节)探讨了样本量与统计模型推断世界能力之间的关系。最后,本章以一个应用案例研究结束,该案例研究探讨了富裕国家在多大程度上履行了蒙特雷共识中关于对贫困国家援助的义务(第5.5节)。这个案例研究说明了如何使用标准误差在统计模型中进行推断。本章的所有关键概念都用于此案例研究。在本章结束时,您应该能够对均值和回归斜率等参数做出明智的推断,并使用这些推断更准确地描述社会世界。

5.1. 从描述性统计到推断统计与世界各地的大多数人一样,美国人正在变得越来越胖。这是一个严重的问题,因为肥胖与一系列健康问题密切相关,包括糖尿病、关节问题和心脏病。许多人也认为肥胖不美观,并希望比现在体重更轻。根据美国健康与营养检查调查 (NHANES) 的数据,20-29岁的美国女性平均体重为155.9磅,男性为188.3磅。这些数据与NHANES首次进行时的数据相比大幅上升。当时,在20世纪60年代初,20多岁的美国女性和男性的平均体重分别为女性127.7磅,男性163.9磅。图5-3报告了按性别划分的20多岁美国人体重均值和标准差。

图5-3。20-29岁美国人的体重(磅)(NHANES数据)

显然,1960-1964年NHANES调查的672名女性记录的体重远低于2003-2006年NHANES调查的706名女性。这是否意味着女性在20世纪60年代真的更轻?可能确实如此,但这两个均值都与大量的误差相关联。均值模型中存在误差,因为NHANES数据库中的每个人都因各种不同的原因偏离了全国平均水平。导致个人体重可能偏离全国同性别人群平均体重的潜在原因可能包括:一个人的身高一个人吃多少一个人锻炼多少一个人将能量储存在脂肪中的基因倾向图5-3第一列中表示的672名女性的平均体重为127.7磅。当然,她们的体重并不都是127.7磅。即使在20世纪60年代初,也不是每个人都像玛丽莲·梦露一样。鉴于图5-4中报告的23.3磅的标准差,大多数20多岁的女性体重会在104.4磅到151.0磅之间。图5-4展示了1960-1962年NHANES调查的672名女性中一些虚构的样本以及她们可能偏离全国平均体重的理由。实际上,每个女性都有数百或数千个偏离平均值的个人理由。我们吃的或喝的每一样东西,我们走的每一步,甚至我们睡觉的时间长短都会影响我们的体重。即使体重完全等于平均体重的女性,也可能存在体重高于平均值的理由和体重低于平均值的理由,而这些理由恰好相互抵消。

图5-4。女性在1960-1962年NHANES调查中可能偏离平均全国体重的潜在原因说明

图5-5比较了女性体重的均值和标准差与体重均值模型中误差的均值和标准差。图5-5两侧唯一的区别是刻度。左侧,女性体重围绕均值(127.7磅)分布。右侧,女性体重围绕0分布。在这两种情况下,分布的程度相同(标准差 = 23.3磅)。

图5-5。13名示例女性体重标准差(左侧)与体重均值误差标准差(右侧)的比较

用于描述女性体重的平均模型,以一种简单的描述性模型概括了我们实际拥有的体重数据特征。描述性统计是指使用统计方法来描述我们实际掌握的数据。女性体重的平均模型告诉我们数据库中特定女性的观察平均体重。类似地,回归模型告诉我们数据库中回归线的观察斜率和截距。这些平均值、斜率和截距是根据实际数据观察到的模型参数。观察参数是指根据我们实际掌握的数据,观察到的像平均值、截距和斜率等参数的实际值。描述性统计侧重于寻找和报告观察参数。看起来寻找和报告观察参数就是统计学的全部内容,但事实是,观察参数仅仅是故事的开始。我们并不真正感兴趣的是包含在1960-1962年NHANES数据库中的672名美国二十多岁女性的实际观察体重。我们真正感兴趣的是推断一般美国女性的真实平均体重,或者推断1960-1962年女性体重与2003-2006年女性体重之间的真实差异。推论性统计是指使用统计方法对我们数据背后的现实世界特征进行推断。我们已经使用平均模型和回归模型对现实世界进行推断,但我们这样做是比较非正式的。从描述性统计转向推论性统计,我们将开始使用统计方法对数据背后现实世界的特征进行正式推断。观察参数是描述性统计。它们说明了数据本身的一些情况,但没有说明更广阔的世界。它们表明,这672名特定女性在特定日期、使用特定体重的秤、在其特定医生办公室称重时,平均体重为127.7磅。我们可以利用这些信息对更广阔的世界进行推断,但这就像刑事案件中的间接证据。毕竟,NHANES是在三年内进行的,但你每天每小时都在增重或减轻体重。每次你吃东西、喝东西,甚至呼吸时,你的体重都会发生变化。你一直在出汗、掉头发、脱皮。你的身体结构在你增减脂肪、肌肉或骨骼时也在不断变化。简而言之,你的体重在不断变化。因此,你在任何一个时间点的观察体重与你的“真实”体重并不相同。真实参数是指基于世界真实(但未观察到)特征的平均值、截距和斜率等参数的真实值。你的观察体重可能一直在变化,但它仍然倾向于在逐月和逐年保持大致相同的体重。在任何一个时间点,都存在一个你的身体围绕其变化的体重。这就是你的真实体重。如果你一小时称一次体重,持续一整年,并取所有这些观察体重的平均值,那么平均值将类似于你的真实体重。推论性统计的目标是推断参数的真实值。参数的观察值是参数可能真实值的良好指南,但观察参数总是包含一些误差。推论性统计侧重于理解观察参数中的误差量。然后,利用该误差量来推断真实参数可能与观察参数相差多少。例如,1960-1962年美国二十多岁女性的观察平均体重为127.7磅。1960-1962年美国二十多岁女性的真实平均体重可能是128磅吗?也许。他们的真实平均体重可能是130磅吗?不太可能。他们的真实平均体重可能是155.9磅,与2003-2006年的女性相同吗?不可能。推论性统计将使我们能够充满信心地得出这样的结论。

5.2. 误差类型 台湾岛有着艰难的历史。长期以来,台湾都是中国的一部分,在1895年至1945年期间经历了50年的日本占领。然后在1949年,150万来自中国大陆的难民逃离了中国共产党的接管,涌入台湾,导致人口在一年内从600万增加到750万。从1950年到1991年,台湾由一个主要由1949年逃到岛上的中国人统治的军事政府统治。简而言之,在1991年之前的近一个世纪里,台湾一直由某种形式的独裁统治。今天在台湾生活的任何人都没有在1991年第一次自由选举之前体验过民主。因此,年轻的台湾人是在民主的环境下长大的,但年长的台湾人对生活在独裁统治下的记忆犹新。今天的台湾人对他们的民主状况满意吗?在世界各地,社会科学家发现人们渴望比他们认为自己拥有的更多的民主。人们对民主的渴望与人们对他们实际拥有多少民主的感知之间的差异被称为“民主赤字”。与世界各地的人们一样,台湾的人们也认为他们没有民主。可以使用2006年在台湾进行的世界价值观调查(WVS)数据来研究人们对台湾民主的评价。民主评级按0到100的等级评分,其中: 评级 = 0 表示受访者认为台湾的民主程度不够 评级 = 50 表示受访者认为台湾的民主程度恰到好处 评级 = 100 表示受访者认为台湾的民主程度过高 图5-6总结了台湾民主评级的平均模型结果。38.8的平均评级表明,大多数台湾人认为民主程度低于他们期望的程度,这与世界其他地区一样。由于民主评级得分低于50,因此台湾存在民主赤字。当然,并非所有台湾人都这么认为。14.1的标准差表明,人们对民主的态度存在广泛的分歧。尽管如此,赤字还是清楚地表明,台湾人民整体上希望拥有比他们认为自己拥有的更多的民主。平均得分(38.8分)几乎比50低了一个标准差。

图5-6. 2006年台湾民主评级的平均模型(WVS数据)

在平均模型中,假设每个台湾人都拥有38.8的得分,再加上或减去一些偏差或误差。这种误差被称为模型误差。它并不一定意味着测量某人的民主评级时出现了错误。这意味着模型给出了一个预期评级——38.8——对许多人来说是错误的。大多数人的民主评级并非正好为38.8。他们的得分要么低于,要么高于此值。这些较低和较高的得分平均为观察平均值38.8分。图5-6中总结的平均模型的目标是找到台湾人民对民主看法的真实平均值。我们不知道真实平均值,但我们知道观察平均值在0到100的范围内为38.8。观察平均值可能由于误差而与真实平均值不同。广义地说,平均模型中存在三种不同的模型误差: 测量误差 抽样误差 个案特定误差 测量误差是由于变量测量中的意外、错误或误解而产生的误差。例如,受访者可能在调查问卷上标记了错误的椭圆形,或者问题措辞可能不当。受访者可能记不起问题的答案,或者可能误解了问题。在电话调查中,研究人员可能没有正确听到受访者的回答,或者可能输入了错误的答案。意外是会发生的。由于观察到的平均民主评级是根据调查中记录的人们的实际答案计算出来的,因此如果这些记录的答案是错误的,它可能与真实平均值不同。 抽样误差是由于随机选择哪些研究对象纳入样本而产生的误差。如今,台湾有2280万人口。只有1216人参与了调查。这些1216人可能并不真正代表台湾人口。每个台湾人对民主的评价都是数百万种影响和经历的结果。理想情况下,所有这些典型的台湾经历都应该反映在选择参加调查的人群中。如果回答调查的人所经历的所有这些影响的总和不同于整个人口所经历的影响的总和,那么调查中的观察平均值将不同于整个人口的真实平均值。例如,调查设计可能不包括对住院或无家可归者进行抽样,因此他们的经历将不会反映在观察平均值中。 个案特定误差是由于可能导致特定个案的值与其预期值不同的数百万种影响和经历中的任何一种而产生的误差。任何统计模型中的大多数误差都是个案特定误差。每个人对世界的独特体验决定了这个人对民主等主题的看法。由于每个人对世界的体验都不同,因此每个人都因不同的原因和不同的方式偏离平均值。在提问当天,具有不同身份、背景甚至情绪的人会给出不同的答案。由于人们的这些特征总是在变化,因此任何一个时间点的观察平均值可能与研究中研究对象的真实平均值不同。个案特定误差如此之大,因为每个人对任何问题的回答都代表了社会中所有可能经历的潜在影响的一种随机样本。在平均模型中,所有这些不同和独特的经历的结果被归结为模型误差。另一方面,线性回归模型会将其中一些独特的经历纳入模型。回归模型中的自变量代表了使每个个案独一无二的部分。例如,塑造人们对民主看法的因素之一是他们的年龄。年长的台湾人是在军事独裁统治下长大的。我们可能会推测,在军事独裁统治下长大的人会对任何形式的民主心存感激。基于此理论的一个假设是,老年人对台湾民主的评价会高于年轻人。图5-7报告了使用年龄作为自变量和民主评级作为因变量的线性回归模型的结果。

图5-7. 2006年台湾民主评级与年龄的回归(WVS)

图 5-7 中报告的斜率为正。每增加一年的年龄,与之相关的个人民主评级的预期值就会上升 0.105。使用图 5-7 中的系数,我们可以计算出 20 岁的台湾人对台湾民主的评级的预期值为 34.223 + 20 × 0.105 = 36.323,评级范围为 0 到 100。60 岁的台湾人的预期民主评级将为 34.223 + 60 × 0.105 = 40.523,或大约高出 4 个点。这不算很多,但确实倾向于证实年龄会影响人们对台湾民主评级的理论。至少部分台湾民主评级中的个案特定误差可以追溯到年龄。事实上,理解回归模型的一种方法是将其视为解释均值模型中部分个案特定误差。这在第 4 章的图 4-10 和图 4-16 中得到了非常清晰的说明。在图 4-10 中,加拿大省份吸烟率均值模型中很大一部分个案特定误差(图的左侧)归因于每个省份的平均气温(图的右侧)。均值模型中误差的标准差为 5.3%。在考虑气温后,回归模型中误差的标准差仅为 3.8%。均值模型中很大一部分个案特定误差在回归模型中消失了。这种消失的误差是由于加拿大各省气温差异造成的误差。在台湾民主评级的例子中,均值模型的误差标准差为 14.1(评级范围为 0 到 100)。回归模型误差标准差(回归表中未报告)为 14.0(评级范围为 0 到 100)。台湾民主评级中非常小一部分(0.1)的个案特定误差是由于年龄造成的。它很小,因为回归模型(图 5-7)中报告的年龄效应非常小。年龄并不是台湾民主评级的重要决定因素,但它是一个因素。它是导致人们与台湾整体平均值存在差异的一小部分原因。测量误差、抽样误差和个案特定误差可能存在于任何统计模型中,但大多数推论统计都集中在个案特定误差上。特别是回归模型专注于将因变量中部分个案特定误差归因于研究对象的自变量得分。测量误差和抽样误差确实会影响回归模型,但影响方式非常微妙。这些将在第 12 章中讨论。在此之前,在讨论模型误差时,我们将只关注个案特定误差。

5.3. 参数的标准误差 统计模型中大量的误差可能使得推断变得困难。回到工资中种族差距的例子(图 5-1),我们能否有信心认为黑人和白人工资的真实均值与观察到的 22,723 美元和 30,096 美元的均值接近?一方面,这些均值模型存在非常大的误差。另一方面,这两个模型中的均值都基于非常大的样本量(633 名黑人和 4331 名白人)。当使用大量个案估计模型时,个案特定误差往往会相互抵消。可能存在大量的个案特定误差(如图 5-1 所示),但如果所有正误差都被负误差抵消,则观察到的均值可能非常接近真实均值。误差只有在偶然情况下存在过多的正误差或过多的负误差时才成为问题。大量个案能够平衡误差并产生更准确的观察均值的能力可以通过图 5-4 中提供的美国女性体重样本数据来说明。想象一下,如果我们试图使用仅一位随机女性的体重来计算 20 世纪 60 年代美国女性的平均体重。我们可能会选择第 3 位女性并得到 140.0 磅的平均体重,或者选择第 6 位女性并得到 115.6 磅的平均体重。如果我们仅基于一位女性的体重建立均值模型,那么我们的观察均值将存在很大误差。事实上,仅使用一个个案来计算均值模型中的均值将产生一个与女性体重本身完全相同的均值范围。基于一个个案计算的均值可以是 99.5 磅(图 5-4 中第 4 位女性的体重)到 177.7 磅(图 5-4 中第 9 位女性的体重)之间的任何值。仅使用两个个案估计的均值模型将提供更准确的观察均值。图 5-4 中最轻的两位女性体重为 99.5 磅(第 4 位女性)和 109.1 磅(第 5 位女性)。这两个个案的平均值为 104.3 磅。两位最重的女性(第 3 位和第 9 位女性)的平均值为 158.85 磅。因此,基于图 5-4 中任意两个随机个案的均值模型将得出介于 104.3 磅和 158.85 磅之间的观察均值。这与一个个案的 99.5 磅到 177.7 磅的范围相比。两个个案可能的均值范围比一个个案窄。对于三个个案,它将更窄。一旦你拥有 672 个个案,个案特定误差几乎可以肯定会在所有个案中平均化。事实证明,均值、斜率和截距等参数的准确性随着用于估计它们的个案数量的增加而迅速提高。随着样本量的增加,参数的观察水平越来越接近其真实水平。观察到的参数始终存在潜在的误差,因为模型中使用的变量始终存在个案特定误差。尽管如此,当模型使用大量个案时,观察到的参数中的误差量可以非常小。标准误差是与观察到的参数相关的误差量的度量。观察到的参数的标准误差告诉我们它可能与真实参数有多接近。这极其重要,因为它使我们能够推断真实参数(如均值、斜率和截距)的水平。标准误差取决于使用的个案数量和模型的总体误差量。在均值模型中,标准误差很容易计算,但在回归模型中则遵循更复杂的公式。标准误差的计算将在第 5.4 节中介绍。与变量的标准差一样,统计软件程序会常规计算所有参数的标准误差。为了理解标准误差的来源,知道随着个案数量的增加,参数的标准误差会降低就足够了。较小的标准误差意味着观察到的参数更准确地反映了真实参数。回到收入中的种族差距(图 5-1),20 多岁黑人的观察平均收入为 30,826 美元。这个均值模型的误差标准差非常高(22,723 美元)。事实证明,该模型中观察均值的标准误差仅为 903 美元。参数的标准误差可以大致按照与变量标准差相同的方式解释:大多数情况下,真实均值位于观察均值的一个或两个标准误差范围内。因此,在图 5-1 中,黑人的观察平均收入为 30,826 美元,标准误差为 903 美元。这意味着黑人的真实平均收入可能在 29,900 美元到 31,700 美元之间。白人工资平均值的标准误差甚至更小。由于白人工资样本量很大(4331),平均值的标准误差仅为 457 美元。图 5-2 中收入对种族的回归报告的斜率为 -6656,这意味着观察到的收入种族差距为 6656 美元。回归模型的误差水平非常高(回归误差标准差 = 29,263 美元)。尽管如此,斜率的标准误差仅为 1245 美元。这意味着收入的真实种族差距可能在 5400 美元到 7900 美元之间。真实种族差距可能正好等于 6656 美元(观察到的差距),但可能并非如此。尽管如此,它可能非常接近。根据 1245 美元的标准误差,我们可以推断它几乎肯定不为 0。换句话说,我们可以推断收入中的种族差距确实存在。它不仅仅是我们数据中随机误差的结果。

5.4. 样本量和统计功效(可选/高级) 在均值模型中计算均值的标准误差相对简单。它等于变量的标准差除以个案数量的平方根。回归斜率的标准误差的计算要复杂得多。与均值的标准误差一样,它取决于回归误差标准差和个案数量,但也取决于自变量的离散程度。从概念上讲,斜率的标准误差就像将因变量均值的标准误差扩展到自变量的范围内,就像图 4-10 中自变量的值扩展到自变量的范围内一样。回归截距的标准误差的计算更加复杂。但是,对于所有参数,标准误差都随着个案数量的平方根而下降。这意味着当您有更多个案可以使用时,您可以进行更准确的推断。由于平方根关系,个案数量通常比模型误差量对实现低标准误差更重要。即使是误差量非常大的模型(如台湾民主评级对年龄的回归),只要有足够的个案,其参数也可以具有非常低的标准误差。图 5-8 以图形方式描绘了均值模型中使用的个案数量 (N) 与观察均值的标准误差 (SE) 之间的关系。图上的线可以理解为当变量的标准差等于 1 时的变量均值的标准误差。随着个案数量从 1 增加到 20,均值的标准误差下降非常快。在 20 到 100 个个案之间,均值的标准误差也迅速下降,但下降速度不如之前那么快。大约 100 个个案之后,均值的标准误差继续下降,但速度非常缓慢。广义地说,一旦您拥有大约 1000 个个案,则需要大量额外的个案才能对均值的标准误差产生任何实际影响。对于大多数社会科学应用,N = 800 - 1,000 个个案的样本量就足够了。

图 5-8. 个案数量与均值标准误差的关系

在台湾民主评级回归模型中(图 5-7),观察到的斜率仅为 0.105,这意味着每增加一岁,一个人的民主评级就会增加 0.105 分。我们发现,人们的民主评级中,只有很小一部分(14.1 分中的 0.1 分)的个案特定误差可归因于年龄。尽管如此,由于模型中使用的案例数量庞大(1216 人),观察到的回归斜率的标准误差仅为 0.25 分。根据此图,我们可以推断,年龄对人们民主评级的影响的真实效应可能介于(大约)0.080 和 0.130 之间。换句话说,我们可以推断,年龄的真实影响几乎肯定不为 0。尽管回归模型存在大量误差,我们仍然可以自信地得出关于态度如何随年龄变化的结论。这种利用基于真实数据的均值估计来推断真实均值的结论的能力称为统计模型的功效。任何统计模型的功效都会随着案例数量的增加而提高,因为更多的案例意味着更低的标准误差,而且(不太重要)因为更多的案例意味着模型中有更多的自由度,从而导致更小的误差标准差。一旦样本量达到 1000 个左右的案例,这两个对统计模型功效的贡献都会呈现递减的回报。由于社会科学中的大多数定量研究都基于调查数据,并且大多数调查的每个额外受访者的成本都是固定的时间和金钱,因此大多数研究都基于大约 800 个案例。在调查有大约 800 名受访者之后,每增加一个人,他们增加的功效就非常少了。

5.5. 案例研究:援助慷慨度与蒙特雷共识 在 2002 年于墨西哥蒙特雷举行的联合国发展筹资问题国际会议上,世界各国富裕国家承诺将其对外援助水平提高到其国民收入的 0.70%。世界上许多最富裕的国家都做到了这一点。图 5-17 显示了 20 个富裕国家的海外发展援助 (ODA) 支出占国民收入的比例。每个国家的对外援助水平用一个条形表示。描述性统计可以用来描述观察到的 ODA 支出的分布。观察到的所有 20 个国家的平均援助水平为国民收入的 0.52%。这一数据和蒙特雷目标 0.70% 的国民收入在图表上都有标记。观察到的平均值比目标值低 0.18%。尽管观察到的平均值远低于目标水平,但 ODA 支出占国民收入的百分比的真实平均值是否可能真的等于 0.7% 呢?

图 5-9. 20 个富裕国家 2008 年的海外发展援助 (ODA) 水平(经合组织数据)

观察到的平均值可能由于各种原因与真实平均值不同。尽管所有 20 个国家的援助支出观察到的平均水平低于 0.70% 的目标水平,但有 5 个国家的援助水平高于目标水平,还有 1 个国家的援助水平接近目标水平。如果所有 20 个国家都将援助水平定为 0.70%,那么 5 个国家超过目标,1 个国家接近目标,13 个国家低于目标似乎是可能的。由于会计操作不善或研究人员的错误,各国报告的 ODA 支出水平可能存在测量误差。更有可能的是,可能存在大量的个案特定误差。各国可能设定了 0.7% 的目标,但由于经济衰退而支出不足,或者由于人道主义危机中的紧急支出而支出过多。本例中不存在抽样误差,因为数据代表了世界上所有最富裕的国家,而不是富裕国家的样本。ODA 支出的标准差为 0.27%。分析中包括 20 个国家。这两个数据可以用来计算 ODA 支出平均值的标准误差,结果为 0.06%。根据此标准误差,推论统计可以用来推断 ODA 支出的真实平均水平。0.06% 的标准误差意味着 ODA 支出的真实平均水平可能在 0.46% 到 0.58% 的范围内(与观察到的平均值相差正负一个标准误差)。真实平均值可能与观察到的平均值相差更大,但真实平均值非常不可能为 0.70%。蒙特雷目标 0.70% 比观察到的 0.52% 的平均值整整高出三个标准误差。ODA 支出的真实平均水平可能不是 0.52%,但几乎肯定不是 0.70%。世界各国富裕国家必须大幅增加 ODA 支出,才能履行其在蒙特雷做出的承诺。

第 5 章 关键词

[编辑 | 编辑源代码]
  • 个案特定误差是指由于可能导致特定个案的值与其预期值不同的数百万种影响和经验而导致的误差
  • 描述性统计是指使用统计数据来描述我们实际掌握的数据
  • 推论统计是指使用统计数据来推断我们数据背后的真实世界的特征
  • 测量误差是指由于变量测量中的意外事故、错误或误解而导致的误差
  • 观察到的参数是指基于我们实际掌握的数据,观察到的参数(如均值、截距和斜率)的实际值
  • 抽样误差是指由于研究对象被随机纳入样本而导致的误差
  • 标准误差是指衡量与观察到的参数相关的误差量
  • 真实参数是指基于世界(但未观察到)的真实特征,参数(如均值、截距和斜率)的真实值

第 4 章 · 第 6 章

华夏公益教科书