跳转到内容

社会统计学,第 2 章:线性回归模型

来自维基教科书,开放世界中的开放书籍

线性回归模型

[编辑 | 编辑源代码]

全世界的人们都担心犯罪,尤其是暴力犯罪。美国人比大多数人更有理由担心。美国是一个特别暴力的国家。美国的凶杀率大约是英国的三倍,是澳大利亚的四倍,是德国的五倍。日本是一个人口超过 1.25 亿人的国家,每年发生的凶杀案数量少于宾夕法尼亚州,人口不到 1250 万。值得庆幸的是,美国的凶杀率在过去 20 年中下降了近 50%,但仍然过高。

暴力犯罪,根据定义,对受害者及其家人来说是创伤性的。曾经成为暴力犯罪受害者的人可能永远不会在公共场合真正感到安全。暴力犯罪也可能对社会有害。从个人层面推广到社会层面,如果人们感到不安全,他们可能会待在家里,避免去公共场所,并退出社会。这种担忧可以被概念化为一个正式的理论:在犯罪率高的地区,人们会觉得离开家门不安全。图 2-1 收集了一个数据库,可以用来评估这一理论,该数据库使用的是从澳大利亚统计局网站上下载的数据。这里使用了澳大利亚的数据,因为澳大利亚只有 8 个州和领地(而美国有 50 个),这使得在散点图上标记特定州变得更容易。

图 2-1:澳大利亚 8 个州和领地 2008 年犯罪和其他社会指标数据
STATE_TERR CODE VICTIM_PERS UNSAFE_OUT VICTIM_VIOL STRESS MOVED5YR MED_INC
澳大利亚首都领地 ACT 2.8 18.6 9.9 62.1 39.8 $712
新南威尔士州 NSW 2.8 17.4 9.3 57.0 39.4 $565
北领地 NT 5.7 30.0 18.2 63.8 61.3 $670
昆士兰州 QLD 3.0 17.3 13.5 64.4 53.9 $556
南澳大利亚州 SA 2.8 21.8 11.4 58.2 38.9 $529
塔斯马尼亚州 TAS 4.1 14.3 9.8 59.1 39.6 $486
维多利亚州 VIC 3.3 16.8 9.7 57.5 38.8 $564
西澳大利亚州 WA 3.8 20.9 12.8 62.8 47.3 $581

澳大利亚犯罪数据库中的案例是澳大利亚的八个州和领地。这些栏目包括两个元数据项(州或领地名称和邮政编码)。还包括六个变量

  • VICTIM_PERS – 2008 年成为人身犯罪(谋杀、企图谋杀、袭击、抢劫和强奸)受害者的百分比
  • UNSAFE_OUT – 晚上黑暗后独自步行感到不安全的百分比
  • VICTIM_VIOL – 过去 12 个月内报告遭受过身体或威胁暴力的人数百分比
  • STRESS – 过去 12 个月内报告经历过至少一次重大生活压力的百分比
  • MOVED5YR – 过去 5 年内搬家的人数百分比
  • MED_INC – 州中位数收入

在犯罪率高的地区,人们会觉得离开家门不安全的理论可以用这些数据进行操作,形成一个具体的假设,即变量VICTIM_PERSUNSAFE_OUT之间的关系在澳大利亚的 8 个州和领地之间将呈正相关。在这个统计模型中,VICTIM_PERS(犯罪率)是自变量,UNSAFE_OUT(人们的安全感)是因变量。这两个变量之间的实际关系如图 2-2 所示。散点图中的每个点都用其州的邮政编码进行了标记。事实上,这个散点图显示了两个变量之间的关系是正相关的。这与犯罪率高的地区,人们会觉得离开家门不安全的理论是一致的。

图 2-2:澳大利亚 8 个州和领地,晚上独自步行感到不安全的百分比与实际州暴力犯罪率对比

像往常一样,图 2-2 包括一条穿过所有数据点的中间的参考线。也像往常一样,散点图中存在很多误差。对独自晚上外出感到害怕会随着犯罪率的上升而上升,但并非在所有情况下都是这样。为了帮助阐明对外出感到害怕的总体趋势,图 2-2 还包括一个新的、额外的信息:与每个观察值(每个州)相关的误差量。不要将散点图简单地看成是一组向上或向下趋势的点,而是可以将散点图看成是趋势(直线)和误差(偏离直线)的组合。这种基本的统计模型——趋势加上误差——是社会科学中最常用的统计模型。

在图 2-2 中,有三个州几乎完全落在趋势线上:新南威尔士州、昆士兰州和西澳大利亚州。这三个州的人们对独自晚上外出感到害怕的程度,与他们所在州的犯罪水平预期相符。换句话说,该州的恐惧统计模型几乎没有误差。居住在其他州和领地的人们比根据其犯罪率预期的害怕程度更高(南澳大利亚州、澳大利亚首都领地、北领地)或更低(维多利亚州、塔斯马尼亚州)。特别是塔斯马尼亚州的犯罪率相对较高(澳大利亚第二高),但害怕程度非常低(澳大利亚最低)。这意味着塔斯马尼亚州的统计模型存在很大误差。虽然图 2-2 中显示的直线确实存在向上趋势,但个案中的误差很大,我们可能会质疑实际犯罪率对了解人们对晚上外出感到害怕程度的用处有多大。

本章介绍了线性回归模型,该模型将因变量和自变量之间的关系划分为趋势加误差。首先,线性回归模型仅仅是一种在散点图上画线的方法(第 2.1 节)。有很多种方法可以绘制穿过数据的直线,但在实践中,线性回归模型是社会统计学中使用的一种方法。其次,散点图上的直线实际上代表了一个关于因变量如何与自变量相关的假设(第 2.2 节)。与任何直线一样,它也有斜率和截距,但社会科学家主要感兴趣的是评估关于斜率的假设。第三,很明显,正斜率意味着两个变量之间的关系是正相关的,而负斜率意味着两个变量之间的关系是负相关的(第 2.3 节)。斜率越陡峭,两个变量之间的关系就越有可能重要。可选部分(第 2.4 节)解释了实际绘制回归线背后的部分数学原理。

最后,本章以美国财产犯罪与谋杀率之间关系的应用案例研究结束(第 2.5 节)。这个案例研究说明了如何使用线性回归模型在散点图上画线,如何将关于变量的假设转化为关于这些直线斜率的假设,以及正相关和负相关之间的区别。本章的所有关键概念都在这个案例研究中使用。在本节结束时,你应该对回归模型如何阐明社会科学中自变量和因变量之间关系的联系有一个基本的了解。

2.1. 线性回归模型简介

[编辑 | 编辑源代码]

当社会科学家对社会世界进行理论化时,他们通常不会用直线的方式进行理论化。大多数社会理论家永远不会提出一个理论说“人们对晚上独自散步的恐惧会随着他们居住社区的犯罪率的上升而以完全的直线方式上升”。相反,关于社会世界的理论要模糊得多:“在犯罪率高的地区,人们会觉得离开家门不安全”。在第 1 章中检查的所有理论也都是用模糊的语言表达的,这些语言没有提到直线

  • 富有的父母往往有富有的孩子
  • 人们吃垃圾食品是因为他们买不起高质量的食物
  • 美国种族歧视导致非白人收入下降
  • 教育支出增加导致学生在考试中的表现更好

当理论没有说明两个变量之间关系的具体形状时,一个简单的散点图在技术上来说是评估它们的合适方法。只需看一眼散点图,任何人都可以看出因变量在自变量的不同值上是倾向于上升、下降还是保持不变。两个变量之间的真实关系可能是直线、曲线,甚至是更复杂的模式,但这并不重要。这些理论没有提到直线或曲线。这些理论只是说,当自变量上升时,因变量也会上升。

然而,散点图也存在问题。有时很难判断它们是向上趋势还是向下趋势。例如,许多美国人认为新移民到美国生了很多孩子,压垮了学校,给纳税人造成了很多负担。图 2-3 绘制了 3193 个美国县的出生率(自变量)和国际移民水平(因变量)之间的关系。出生率随着移民的增加而上升吗?仅从散点图中很难看出,没有直线的话就更难判断。事实证明,出生率确实随着移民率的上升而上升,但只是略微上升。

A scatter plot of birth rates with a positive correlation
图 2-3:2009 年 3193 个美国县的出生率与移民率

如图 2-3 所示,散点图的另一个问题是,当分析数据库中的案例数量很大时,它们变得难以阅读。当存在多个自变量时,散点图也变得难以阅读,正如本书后面将要讨论的那样。但是,使用散点图评估理论的最大问题是,不同的人可能对它们有不同的看法。一个人可能会看到上升趋势,而另一个人则认为趋势总体上是平稳或下降的。如果没有参考线给出明确的答案,就可能无法就正在评估的理论是否正确达成一致意见。由于这些(以及其他)原因,社会科学家通常不依赖散点图。散点图在社会科学中被广泛使用,但它们被用来获得对数据的总体印象,而不是用来评估理论。

相反,社会科学家使用像上面和第一章中绘制在散点图上的参考线那样的直线来评估理论。这些线称为回归线,基于称为线性回归模型的统计模型。线性回归模型是统计模型,其中因变量的预期值被认为根据自变量的值以直线上升或下降。线性回归模型(或简称为“回归模型”)是统计模型,这意味着它们是对现实世界的数学简化。实际变量可能不会以直线上升或下降,但在线性回归模型中,我们简化了事物,只关注变量的这个方面。

当然,因变量不会像回归模型所暗示的那样真正地以直线上升或下降。社会科学家使用直线是因为它们很方便,即使它们可能并不总是理论上合适。变量之间可能存在其他类型的关系,但使用直线而不是其他类型的关系有很多充分的理由。其中一些是

  • 直线是两个变量之间可能相关的最简单方式,因此应该使用它,除非有充分的理由怀疑更复杂的关系
  • 直线可以使用它们的斜率和截距进行比较(你不需要每个数据点,就像比较散点图一样)
  • 通常,社会科学模型中存在太多误差,以至于我们无法区分直线关系和其他关系

线性回归模型绘制的直线穿过散点图中点云的中间。它的绘制方式是,沿直线的每个点都代表了给定自变量值下因变量最可能的值。这是因变量在模型中没有误差的情况下预期具有的值。预期值是因变量仅基于自变量的值而预期具有的值。图 2-4 描绘了人们对夜间独自走路的恐惧的线性回归模型。来自图 2-2 的因变量,即感到不安全的百分比,根据一个新的自变量进行回归,即报告亲自经历过暴力事件的人的百分比。图 2-4 中的误差比我们在图 2-2 中看到的误差要小。特别是塔斯马尼亚现在非常接近预期值的参考线。

A scatter plot of feelings of safety with a positive correlation
图 2-4:夜间独自走路感到不安全的人的百分比与报告亲自经历过暴力事件的人的百分比,针对 8 个澳大利亚州和地区

夜间独自走路感到不安全的人的百分比的预期值已在散点图上标出。它们是根据回归模型预期具有的因变量的值。例如,在这个模型中,塔斯马尼亚夜间独自走路感到不安全的人的预期百分比为 16.9%。换句话说,根据塔斯马尼亚人报告的暴力经历水平,我们预计大约 16.9% 的塔斯马尼亚人会感到在夜间独自走路不安全。根据我们的数据,14.3% 的塔斯马尼亚人报告称他们在夜间独自走路感到不安全(参见图 2-1 中的 UNSAFE_OUT 变量,并沿着塔斯马尼亚的行读取)。由于回归模型预测为 16.9%,而实际值为 14.3%,因此图 2-4 中塔斯马尼亚的误差为 2.6% ().

回归误差是线性回归模型中因变量的预期值与其实际值之间的差异程度。回归误差表示为偏离连接自变量和因变量的直线关系的趋势。通常,回归误差非常小的回归模型优于回归误差很大的回归模型。当回归误差非常小时,回归线的趋势往往更陡峭,自变量和因变量之间的关系往往更强。

图 2-4 中描绘的回归模型存在很大的回归误差,但比图 2-2 中观察到的误差要小。特别是,图 2-2 中塔斯马尼亚的回归误差为 7.1%——远高于图 2-4 中的误差。这表明,人们报告的亲自经历过暴力的经历比一个州的实际犯罪率更能预测人们对夜间安全的感受。人们对安全和恐惧的体验是非常个人的,不一定是基于整个社会层面的犯罪统计数据。如果决策者希望确保人们感到足够安全地外出,他们需要做的不仅仅是降低犯罪率。他们还需要减少人们的个人经历——以及人们对个人经历的看法——暴力和犯罪。这可能更难做到,但也对社会更有益。决策者应该采取一种广泛的措施来使社会总体上减少暴力,而不是仅仅将潜在的罪犯送进监狱。

2.2:回归线的斜率

[编辑 | 编辑源代码]

在社会科学中,即使是像图 2-4 中描绘的那样好的线性回归模型也往往存在很大的误差。回归建模的主要目标是找到一个自变量,它更能拟合因变量,并具有更多的趋势和更少的误差。图 2-5 描绘了一个几乎全是趋势(误差非常小)的关系示例。图 2-5 中的散点图使用州出生率作为自变量,使用州死亡率作为因变量。出生率高的州往往人口年轻,因此死亡率低。犹他州被排除在外,因为它过高的出生率(每年每 1000 人超过 20 个孩子)不适合图表,但如果包括犹他州,它的死亡率将非常接近回归线。一个州的死亡率异常高(西弗吉尼亚州),而另一个州的死亡率异常低(阿拉斯加州)。

图 2-5. 2009 年 49 个美国州加上哥伦比亚特区的死亡率与出生率(不包括犹他州)

从趋势和误差的角度考虑散点图,图 2-5 中的趋势明显下降。死亡率随着出生率的上升而下降,但下降多少?回归线的斜率给出了答案。请记住,回归线穿过因变量的预期值。斜率是因变量的预期值的改变量除以自变量的值的改变量。换句话说,它是自变量每增加 1 个点时,回归线的变化。在图 2-5 中,当自变量(出生率)增加 1 个点时,因变量(死亡率)的预期值减少 0.4 个点。因此,回归线的斜率为 −0.4 / 1 或 −0.4。斜率为负,因为直线趋势向下。如果直线趋势向上,斜率将为正。

图 2-6 描绘了具有正斜率的回归线示例。这条直线反映了人们搬迁到新社区的一个简单理论。美国人非常流动——比世界上大多数其他国家的人们流动性高得多——并且经常在美国境内从一个地方搬到另一个地方。一种理论是,人们会去有工作的地方:人们从经济萧条的地方搬到经济繁荣的地方。在图 2-6 中,这一理论被转化为一个假设,即收入较高的县(自变量)往往会吸引最多的迁移(因变量)。换句话说,县收入与迁移呈正相关。图 2-6 表明,这一假设是正确的——至少对于一个州(南达科他州)而言。图 2-6 中回归线的斜率表明,当县收入增加 10,000 美元时,迁移往往会增加大约 8%。实际斜率为.

图 2-6. 2000 年代 66 个南达科他州县的人口净迁移率与中位收入

图 2-6 中回归线的正斜率并不意味着人们总是搬到收入水平最高的县。回归线周围存在相当大的误差。林肯县尤其显得远离其他县数据的范围。林肯县是南达科他州最富有的县,也是第三人口大县。在过去十年中,该县快速发展,以前农村地区发展成为附近明尼哈哈县苏福尔斯市的郊区。南达科他州的其他许多县的移民数据变化很大,因为这些县很小,一家雇主的开张或倒闭都会对移民产生重大影响。在南达科他州的 66 个县中,有 49 个县的人口少于 10,000 人。因此,南达科他州的数据显示出高水平的回归误差并不奇怪。

如果人们确实从经济萧条的地方搬到经济扩张的地方,那么中位收入和净移民之间的关系应该在每个州都呈正相关,而不仅仅是南达科他州。佛罗里达州是一个与南达科他州几乎所有方面都截然不同的州。佛罗里达州只有两个县的人口少于 10,000 人,而且该州的平均收入远高于南达科他州。更重要的是,许多人搬到佛罗里达州的原因与工作无关,例如气候和生活方式。由于许多人在退休后搬到佛罗里达州,因此关于工作和移民的整个理论在那里可能无关紧要。为了查明情况,图 2-7 描绘了佛罗里达州 67 个县的净移民率与中位县收入的回归关系。

图 2-7。2000 年代佛罗里达州 67 个县的人口每 1000 人的估计净移民量与中位收入的对比

正如预期的那样,佛罗里达州各县的回归误差远大于南达科他州各县。它们的斜率也更小。在佛罗里达州,每增加 10,000 美元的中位收入,净移民率就会增加 5%,斜率为 。这仅仅略高于南达科他州的斜率。与南达科他州一样,一个县的增长速度远远快于该州的其他地区。佛罗里达州的弗拉格勒县的增长原因与内布拉斯加州的林肯县基本相同:它是一个以前是农村的县,正在快速发展。尽管如此,尽管收入和移民之间的关系在佛罗里达州比在南达科他州弱,但回归线的斜率仍然是正的。这为支持以下理论提供了更多证据:人们从经济萧条的地方搬到经济繁荣的地方。

2.3:异常值和稳健性

[edit | edit source]

由于社会科学家使用的统计模型存在如此多的误差,因此同一个理论的不同操作化方法给出不同的结果并不罕见。我们在第 1 章中看到了这一点,因为对垃圾食品消费的不同操作化方法对州收入与垃圾食品消费之间的关系给出了不同的结果(图 1-2 与图 1-3)。当理论在不同的操作化选择下仍然成立时,社会科学家对理论印象深刻,例如图 2.6 和图 2.7。理想情况下,所有旨在评估理论的统计模型都应该产生相同的结果,但实际上并非如此。当统计模型存在高水平的误差时,统计模型可能特别不稳定。当模型存在大量误差时,数据的细微变化会导致模型结果发生巨大变化。

稳健性是指统计模型在操作化发生变化的情况下是否会给出相似结果的程度。关于线性回归模型,稳健性意味着回归线的斜率在使用不同数据时不会发生太大变化。在稳健的回归模型中,回归线的斜率不应过分依赖于使用了哪些特定数据或是否包含或排除了任何一个案例。当线性回归模型满足以下条件时,它们往往最稳健

  • 它们基于大量案例
  • 回归误差相对较小
  • 所有案例都整齐地排列在回归线周围的对称带中

基于少量案例、大量误差和案例分布不规则的回归模型可能非常不稳定(根本不稳健)。图 2-8 中描绘了这样一个模型。许多人认为在大城市不安全,因为他们认为犯罪,尤其是谋杀案,在大城市非常普遍。毕竟,在纽约这样的特大城市,几乎每天都有谋杀案的报道。另一方面,大城市按定义来说人口众多,因此它们的实际谋杀率(每 100,000 人的谋杀案数)可能相对较低。图 2-8 使用了美国 10 个最大城市的​​数据,绘制了城市规模与谋杀率之间的关系。回归线向下趋势,斜率为 -0.7:当城市人口增加 100 万人时,谋杀率下降 0.7/100,000。该模型表明,较大的城市比较小的城市更安全。

图 2-8。美国 10 个人口超过 100 万的城市的谋杀率与城市规模的对比(2008 年)

然而,有几个理由质疑图 2-8 中描绘的模型的稳健性。根据与稳健模型相关的三个条件评估该模型,它在各个方面都失败了。首先,该模型基于少量案例。其次,存在大量的回归误差。第三,也许最重要的是,这些案例没有整齐地排列在回归线周围的对称带中。在图 2-8 中描绘的十个城市中,有八个集中在散点图的最左侧,一个(洛杉矶)更靠近中间,但仍然在左半部分,还有一个(纽约)在最右侧。纽约比美国其他任何城市都要大得多,并且远远超出了由其他数据形成的点云。它独自一人,远离所有其他数据点。

异常值是指统计模型中的数据点,这些数据点远离大多数其他数据点。在图 2-8 中,纽约是一个明显的异常值。基于包含异常值的数据的统计结果往往不稳健。在 100 或 1000 个点中,一个异常值通常不会对统计模型产生太大影响,但十个点中一个异常值可能会产生很大影响。图 2-9 绘制了与图 2-8 完全相同的数据,但不包括纽约。基于剩余 9 个城市的数据的新回归线的斜率与原始回归线的斜率完全不同。当纽约包含在内时,斜率为负(-0.7),这表明较大的城市更安全。当纽约排除在外时,斜率为正(0.8),这表明较大的城市更危险。城市规模与谋杀率之间的关系显然不稳健。

图 2-9。美国 9 个人口超过 100 万的城市(除纽约外)的谋杀率与城市规模的对比(2008 年)

人们很容易争辩说,异常值是应该始终排除的“不良”数据点,但一旦研究人员开始排除他们不喜欢的点,就很难停下来。例如,在图 2-9 中,在纽约被排除在外后,费城似乎出现了一个新的异常值。所有其他城市都沿着趋势线整齐地排列,只有费城独自一人位于散点图的左上角。排除费城使回归线的斜率变得更强:从 0.8 增加到 2.0。然后,在费城消失后,洛杉矶似乎是一个异常值。排除洛杉矶会进一步提高斜率,达到 6.0。这里的危险是显而易见的。如果我们只对我们喜欢的​​数据点进行分析,我们最终会对现实世界中连接变量的真实关系产生非常扭曲的印象。应该调查异常值,但稳健性始终是解释问题,而不是通过包含或排除特定案例来证明的问题。

2.4. 最小二乘误差

[edit | edit source]
可选/高级

在线性回归模型中,回归线代表了任何给定自变量值下因变量的期望值。有道理的是,找到因变量期望值的最佳位置应该是在将它连接到自变量的散点图的正中间。例如,在图 2-5 中,出生率为 15 的州最可能的死亡率不是 16 或 0,而是在中间的某个地方,例如 8。回归线指示的死亡率似乎是处于出生率范围中间的州的平均死亡率。就目前而言,这似乎是合理的。很明显,回归线必须位于中间的某个位置,但我们如何决定究竟在哪里绘制它呢?一个想法可能是绘制回归线以最大限度地减少散点图中的误差量。如果散点图是趋势和误差的组合,那么最大限度地减少误差似乎是合理的。通过散点图正中间的一条线一定比其他线的误差更小,对吧?奇怪的是,答案是否定的。图 2-10、图 2-11 和图 2-12 说明了这个奇怪的事实。这三张图在一个非常简单的散点图上显示了不同的线。在这个散点图中,只有四个数据点

  • X = 1, Y = 2
  • X = 1, Y = 8
  • X = 5, Y = 5
  • X = 5, Y = 8

图 2-10 中绘制了连接自变量 (X) 与因变量 (Y) 的实际回归线。这条线穿过所有四个点的正中间。每个点距离回归线 4 个单位,因此每个点的回归误差为 4。整个散点图的总误差为 。在散点图上无法绘制其他线以获得更少的误差。到目前为止,一切顺利。

图 2-10。回归线 (A) 的误差表示

问题是回归线 (A) 不是唯一最小化散点图误差的线。图 2-11 描绘了另一条线 (B)。这条线并没有穿过散点图的中心。相反,它更靠近两个低点,离两个高点更远。它显然不如回归线好,但它恰好具有相同的误差。与线 B 相关的误差是 。看来线 A 和线 B 都将散点图的误差降至最低。

图 2-11。显示略低于真实回归线的样本线 (B) 的误差

这还不是全部。图 2-12 描绘了另一条线 (C)。线 C 比线 B 更差。它位于散点图的顶部,非常靠近两个高点,并且离两个低点很远。它根本不在点云的中心。但总误差相同:。事实上,任何穿过点的线 - 任何线 - 都会产生相同的误差。许多不同的趋势会导致相同的误差。这使得无法仅根据总误差来选择任何一条线。需要另一种方法。

图 2-12。显示远高于真实回归线的样本线 (C) 的误差

实际上用于绘制回归线的这种方法是绘制误差平方和最小的线。误差平方和就是:误差的平方,或者乘以自身。因此,例如,如果误差是 4,则误差平方和是 16 ()。对于图 2-10 中的线 A,总误差平方和是 或者 。对于图 2-11 中的线 B,总误差平方和是 或者 。对于图 2-12 中的线 C,总误差平方和是 或者 。误差平方和最小的线是线 A,即穿过散点图中心的回归线。所有其他线的误差都更大。

事实证明,误差平方和最小的线始终是唯一的 - 只有一个线可以将总误差平方和降至最低 - 并且始终穿过散点图的中心。作为额外的好处,计算机可以使用最小二乘误差快速高效地计算回归线。最小二乘误差的使用与线性回归模型密切相关,因此它们通常被称为“最小二乘回归模型”。本书其余部分中使用的所有统计模型都是基于最小化误差平方和。最小二乘误差是几乎所有社会统计学背后的数学原理。

2.5:案例研究:财产犯罪和谋杀率

[edit | edit source]

谋杀是一种罕见而可怕的罪行。每次人类的生命过早结束都是一场悲剧,但当一个人的死亡是故意的而不是意外的时,这场悲剧就更加严重。不幸的是,使用本教科书的一些学生会认识被谋杀的人。幸运的是,我们大多数人都不认识。但我们几乎所有人都认识过财产犯罪(如入室盗窃或盗窃)的受害者。我们中许多人甚至自己也成为过财产犯罪的受害者。财产犯罪不仅在美国,而且在世界各地都很常见。事实上,与其他富裕国家相比,美国财产犯罪的水平并不特别高。这很奇怪,因为美国的人均谋杀率很高。看来各种罪行都应该一起上升和下降。它们是这种情况吗?

一种犯罪理论可能是高财产犯罪率会导致高谋杀率,因为人们在犯罪生涯中从轻微犯罪转向严重犯罪。由于来自不同国家/地区的财产犯罪的国际数据可能不尽相同,因此使用假设和有关美国犯罪率的数据来操作化这一理论是有意义的。将财产犯罪与谋杀联系起来的一个具体假设是,对于人口超过 100,000 人的美国城市,财产犯罪率与谋杀率呈正相关。这种操作化排除了小型城市,因为小型城市可能在任何一年都没有记录到的犯罪。

来自美国联邦调查局 (FBI) 的各种犯罪率数据可用。在图 2-13 中,这些数据用于绘制 268 个人口超过 100,000 人的美国城市中财产犯罪率和谋杀率之间的关系。线性回归模型已用于在散点图上放置趋势线。趋势线表示任何给定财产犯罪水平的预期谋杀率。例如,在一个财产犯罪率为每 100,000 人 5,000 人的城市中,预期谋杀率为每 100,000 人 10.2 人。一些城市的谋杀率符合其财产犯罪率的预期,但回归误差很大。谋杀率分散很广,并没有紧密地围绕回归线聚集。

图 2-13。268 个人口超过 100,000 人的美国城市(2008 年)的谋杀率与财产犯罪率的对比

回归线的斜率为正,如预期的那样。这倾向于证实高财产犯罪率与高谋杀率相关的理论。财产犯罪率每增加 1,000,平均而言,与谋杀率增加 2.7 相关。这很可能是一个可靠的结果,因为它基于大量案例。另一方面,存在高水平的误差,并且案例没有整齐地落在回归线周围的对称带中,因此我们可能在解释结果时要谨慎一些。还有一个主要异常值:新奥尔良。新奥尔良的谋杀率远高于任何其他美国城市,并且新奥尔良远远超出了其他数据的边界。但是,不包括新奥尔良,回归线的斜率没有发生变化,无论是否包含新奥尔良,该斜率仍然为 2.7。

总体而言,高财产犯罪率与高谋杀率相关的理论在美国城市整体上是有效的,但任何特定美国城市的谋杀率似乎与财产犯罪率并不密切相关。如果他们想要降低谋杀率,美国城市尝试降低财产犯罪率不会有什么坏处,但可能无法解决问题。财产犯罪率在 5,000–6,000 范围内的城市,其谋杀率可能在接近零到 30 或更高之间。减少谋杀率的政策可能应该针对具体降低社会暴力,而不是广泛地降低犯罪率。

第二章 关键术语

[编辑 | 编辑源代码]
  • 预期值是指仅基于自变量的值,因变量预期具有的值
  • 线性回归模型是指统计模型,其中因变量的预期值被认为是根据自变量的值呈直线上升或下降
  • 离群值是指统计模型中远离其他大多数数据点的点
  • 回归误差是指线性回归模型中因变量的预期值与其实际值之间的差异程度
  • 稳健性是指统计模型在操作化发生改变时仍能给出相似结果的程度
  • 斜率是指因变量的预期值变化量除以自变量的值变化量

第一章 · 第三章


华夏公益教科书