跳转到内容

社会统计学,第一章:社会统计学导论

来自维基教科书,开放世界中的开放书籍

社会统计学导论

[编辑 | 编辑源代码]

富裕父母的孩子通常长大后成为富裕的成年人,而贫困父母的孩子通常长大后成为贫困的成年人。这似乎是社会生活的一个基本事实,但事实真是如此吗?到底有多真实?我们都听过穷人发家致富的故事(奥普拉·温弗瑞詹妮弗·洛佩兹史蒂夫·乔布斯),也听说过富人挥霍无度最终变得贫困的故事。图 1-1 描绘了美国随机样本中父母收入和子女收入之间的关系。如你所见,父母收入和子女收入之间存在关联,但存在很大的误差。富裕父母往往有富裕的孩子,但并非总是如此;贫困父母往往有贫困的孩子,但并非总是如此。这种结果在社会科学领域非常普遍。社会科学可以解释我们世界上的很多事情,但它无法完美地解释所有事情。总有误差空间。

A scatter plot of income with a positive correlation
图 1-1:50 名随机美国人 2007 年子女收入与 1987 年父母收入(经通货膨胀调整)的关系(NLSY 数据)

社会统计学的目标是用尽可能少的误差尽可能简单地解释社会世界。在图 1-1 中,父母收入似乎可以很好地解释子女收入,即使不能完全解释。解释子女收入的误差中,一部分可能来自测量误差。人们在被问到收入时并不总是诚实作答。人们甚至可能不确定自己在任何一年到底赚了多少钱。人们在回答关于其收入的社会调查问题时可能会犯下不可预测的错误,因此,对子女报告收入的任何分析都不会完全准确。

另一方面,图 1-1 中的大部分误差可能与糟糕的测量无关。解释子女收入的大部分误差可能来自本分析中遗漏的重要收入决定因素。子女收入可能与父母收入不符,原因很多。例如,潜在的误差来源包括以下方面:

  • 子女在学校的表现可能比父母好或差
  • 子女可能进入比父母收入更高或更低的职业
  • 子女在找工作方面的运气可能比父母好或差
  • 子女可能比父母更有或更没有野心

对收入进行的统计分析,如果包括子女的学校表现、职业选择、工作运气和野心,那么与仅仅基于父母收入的简单图表相比,误差会更小,但也会复杂得多。社会统计学总是在复杂性和误差之间进行权衡。社会世界的一切都由许多不同的因素决定。一个人的收入水平可能部分来自朋友的工作建议、获得良好的推荐信、面试当天表现出色、是黑人、是女性、说英语时口音很重或其他数百万种原因。社会统计学就是想办法利用其中一小部分原因来合理地解释社会现实。没有一个统计模型可以解释一切,但如果一个模型可以仅根据人们的一些简单事实解释人们收入的大部分可变性,那将是相当令人印象深刻的。

本章介绍了社会统计学的一些基本构建块。首先,社会统计学是社会科学家用来将社会理论与世界数据联系起来的方法之一(第 1.1 节)。如果没有关于世界运作方式的某种理论观点,就不可能进行有意义的统计分析。其次,社会统计学基于对案例和变量的分析(第 1.2 节)。对于我们想要研究的任何变量(如收入),我们至少需要几个案例可用作分析 - 案例越多越好。第三,社会统计学几乎总是涉及使用模型,其中一些变量被假设为导致其他变量(第 1.3 节)。我们通常使用统计学是因为我们相信一个变量会导致另一个变量,而不仅仅是因为我们好奇。可选部分(第 1.4 节)探讨了在社会统计学中如何才能建立因果关系的问题。

最后,本章以一个关于美国 50 个州教育支出与学生成绩之间关系的应用案例研究结束(第 1.5 节)。这个案例研究说明了如何将理论应用于数据、如何将数据整理成案例和变量以及如何将自变量和因变量因果联系起来。本章所有关键概念都应用于此案例研究。在本节结束时,你应该具备所有必要的工具,可以使用社会统计学开始对社会世界进行建模。

1.1:理论与数据

[编辑 | 编辑源代码]

理论决定了我们如何看待社会世界。我们每个人都有关于世界运作方式的理论。这些理论大多基于个人经验。这没什么问题:据说艾萨克·牛顿是在一颗苹果砸到他头上后才提出了万有引力定律。个人经验可能是社会理论的危险向导,因为你的经验可能与其他人的经验大不相同。这并不是一个糟糕的起点,但社会科学要求将个人经验转化为更通用的理论,这些理论适用于其他人,而不仅仅是你。概括是指将关于特定情况的理论转化为适用于多种情况的理论的行为。例如,你可能认为自己吃了很多垃圾食品是因为你买不起高质量的食品。这个关于你自己的理论可以概括为关于所有人的更广泛的理论

人们吃垃圾食品是因为他们买不起高质量的食品。

从个人经验中概括是提出关于社会世界理论的一种方式,但并非唯一方式。有时理论来自对其他人的观察:你可能会看到贫困社区有很多快餐店,因此推断出人们吃垃圾食品是因为他们买不起高质量的食品。有时理论是基于其他理论发展而来的:你可能推断出所有的人都希望尽可能地活得更长,因此得出结论,人们吃垃圾食品是因为他们买不起高质量的食品。有时想法会突然出现在你的脑海里:你在一家餐厅喝着可以无限续杯的苏打水,突然意识到,也许人们吃垃圾食品是因为他们买不起高质量的食品。无论如何,你都会想到一个理论。概念化是指形成关于社会世界某一方面理论的过程

你可能在广播或电视上听到的社会评论与真正的社会科学之间的主要区别在于,在社会科学中,理论是用正式的统计模型进行审查。统计模型是指现实世界的数学简化。统计建模的目标是用尽可能少的误差尽可能简单地解释复杂的社会事实。统计模型可能很简单,例如一个图表显示富裕的父母有富裕的孩子,如图 1-1 所示。这个图表采用一个非常复杂的社会事实(子女收入),并用非常简单的术语(随着父母收入的增加而上升)来解释,但存在很大的误差(许多孩子的收入比父母高或低)。

社会科学家使用统计模型来评估关于世界运作方式的不同理论。在我们心中,我们每个人都有关于社会世界的理论,但在现实世界中,我们不可能都正确。在社会科学家接受一种理论之前,他们会使用关于现实世界的数据仔细评估它。在评估理论之前,必须将理论转化为关于特定数据的具体假设。操作化是指将社会理论转化为关于真实数据的具体假设的过程。人们吃垃圾食品是因为他们买不起高质量的食品的理论似乎非常合理,但它过于模糊,无法使用社会统计学进行检验。首先,它必须被操作化为更具体的东西。操作化意味着回答诸如以下问题:

  • 哪些人吃垃圾食品?世界上所有的人?所有美国人?只有贫困的美国人?
  • 什么是垃圾食品?苏打水?糖果?薯片?披萨?含糖谷物?炸鸡?
  • 什么是高质量的食品?只有沙拉和自制晚餐?还是牛排也包括在内?
  • 鲜榨果汁是垃圾食品(含糖量高)还是高质量食品(新鲜营养丰富)?
  • "负担得起"是什么意思?实际上没有足够的钱购买东西?除了食品之外,还有其他支出吗?
  • 我们应该研究谁的行为?个人?家庭?住户?整个城市?县?州?国家?世界?

例如,研究垃圾食品消费与高质量食品可负担性之间关系的一种方法是使用州级数据。研究美国各州非常方便,因为它们在很多方面都很相似(它们都属于同一个国家),但也足够不同,可以进行有趣的比较。美国政府机构收集并发布了大量关于美国各州的数据。例如,垃圾食品消费可以被量化为各州的软饮料或含糖零食的消费量(均可从美国农业部获得),可负担性可以通过州中位收入来量化。大多数居住在高收入州的人应该能够负担得起食用更高质量的食物。

图 1-2 显示了人均州软饮料消费量和州中位收入的关系图。图 1-2 中的每个点代表一个州。图中标记了一些州的示例。此图称为散点图。散点图非常简单的统计模型,它在图表上展示数据。散点图可用于确定软饮料消费量在各州收入水平范围内是上升、下降还是保持不变。在图 1-2 中绘制的散点图中,软饮料消费量随着收入的增加而趋于下降。这与以下理论一致:人们在有经济能力时会购买健康食品,但在贫困时会食用不健康食品。该理论可能是正确的,也可能不正确。散点图提供了支持该理论的证据,但不能最终证明该理论。毕竟,可能还有许多其他原因导致软饮料消费量在较贫穷的州往往更高。

A scatter plot of soda consumption with a negative correlation
图 1-2:48 个美国州(不包括阿拉斯加州和夏威夷州,因为缺乏数据)以及哥伦比亚特区的软饮料消费量与州中位家庭收入之间的关系

解释软饮料消费量的统计模型中也存在很多误差。有很多贫困州的软饮料支出非常低,也有很多富裕州的软饮料支出非常高。因此,虽然总体趋势是富裕州的软饮料支出较低,但也有很多例外情况。这可能是因为该理论是错误的,但也可能是因为除了贫困之外,人们消费软饮料还有很多原因。例如,人们可能会消费软饮料,因为

  • 他们生活在天气炎热的地方,会大量饮用各种饮料
  • 他们经常在外就餐,并倾向于在餐馆消费软饮料
  • 他们正在尝试减肥,实际上正在消费零卡路里的软饮料
  • 他们只是喜欢喝软饮料的味道

所有这些原因(以及许多其他原因)可能导致图 1-2 中绘制的统计模型存在大量误差。

图 1-3 展示了另一种对以下理论进行量化的方式:人们食用垃圾食品是因为他们负担不起食用高质量食品。在图 1-3 中,垃圾食品消费被量化为含糖零食(饼干、小蛋糕、巧克力棒等)的消费量。同样,总体理论是,人们食用垃圾食品是因为他们负担不起食用高质量食品,因此州平均收入应该与含糖零食消费量呈负相关。换句话说,随着州平均收入的增加,含糖零食消费量应该下降。但数据却讲述了一个不同的故事:事实证明,州平均收入与含糖零食消费量之间几乎没有关系。

A scatter plot of sweet snack consumption with a positive correlation
图 1-3:48 个美国州(不包括阿拉斯加州和夏威夷州,因为缺乏数据)以及哥伦比亚特区的含糖零食消费量与州中位家庭收入之间的关系

这里出了什么问题?为什么州平均收入与含糖零食消费量之间没有关系?可能有很多原因。

首先,从一个人的经历(食用垃圾食品是因为负担不起食用高质量食品)泛化到社会的一般规则(人们食用垃圾食品是因为人们负担不起食用高质量食品)可能是错误的。其次,从一开始就将可负担性和垃圾食品消费之间的任何关系概念化可能是错误的(也许垃圾食品实际上比高质量食品更贵)。第三,在州一级量化垃圾食品消费可能是错误的(例如,富裕州实际上可能包含大量食用大量含糖零食的穷人)。第四,使用散点图这样的简单统计模型可能是错误的(本书后面的章节将介绍更复杂的统计模型)。

由于社会统计中存在如此多的潜在误差来源,统计分析通常会导致如图 1-2 和图 1-3 中报道的那样的相互矛盾的结果。不一致、不确定的或完全毫无意义的结果一直出现。社会世界极其复杂。社会理论总是过于简单,无法解释所有问题。社会统计使我们有机会了解社会理论在现实世界中的表现。在我们的理论(人们食用垃圾食品是因为他们负担不起食用高质量食品)中,社会统计告诉我们,有一些证据支持该理论(贫困州的软饮料消费量往往更高),但显然需要更好的理论来全面解释人们垃圾食品消费量的差异。

1.2:案例和变量

[编辑 | 编辑源代码]

正如垃圾食品示例所示,在将社会科学中的理论转化为具体假设时,最大的障碍通常是难以获得正确的数据。很少有定量社会科学家能够收集自己的数据,即使他们能够收集数据,也往往无法收集他们想要的数据。例如,想要研究人们是否有能力购买高质量食品的社会科学家,理想情况下希望了解各种信息以确定可负担性。他们当然希望了解人们的收入,但他们还希望了解健康食品在每个人所在地区的成本、人们需要开车多远才能到达农场商店或有机超市、他们是否有汽车、人们除了食物之外还有多少其他支出等等。如此详细的信息可能非常难以收集,因此研究人员通常只使用收入。

当研究人员不得不依赖他人收集的数据时,找到合适的数据就更加困难。社会数据的收集通常是在非常大的规模上进行的。例如,大多数国家定期进行人口普查。在美国,这意味着每十年向超过 1 亿户家庭分发简短的人口普查问卷。更长、更详细的美国社区调查每月发送给大约 25 万户家庭。另外 6 万户家庭会收到一份详细的就业调查,即当前人口调查。其他社会数据的收集也可能非常困难且昂贵。图 1-2 中使用的收入数据来自一项对 12,686 人及其子女的全国调查,这些人员几乎每年都会接受调查,持续 30 年。图 1-2 和图 1-3 中使用的食品消费数据来自对全美 4 万户家庭购买的产品的条形码扫描。显然,没有一个人能够独自收集这些数据。

好消息是,现在可以通过互联网下载海量的社会调查和其他社会数据。本教科书中使用的所有数据都可以从政府或大学网站免费获取。这些公共使用数据集已删除所有个人识别信息,例如个人受访者的姓名和地址。此外,这些数据集中数据的组织形式通常已格式化为适当的数据库。

数据库将数据排列成变量和案例的结构。当对人们进行调查时,原始数据通常需要经过处理才能使用。例如,调查通常不会询问人们的年龄,因为(信不信由你)人们经常会弄错自己的年龄。相反,调查员会询问人们的出生日期。他们还会记录调查日期。这两个日期可以组合在一起,以确定受访者的年龄。受访者的年龄是关于受访者的一个具有社会学意义的事实。诸如受访者的出生日期和访谈日期之类的原始数据已转化为一个变量,可用于统计模型。

变量案例的分析意义上的属性案例已收集数据的个人或实体。数据库通常为每个案例包含一行数据。变量排列成列。也可能包含元数据的列。元数据案例的额外属性,不应包含在分析中。图 1-4 展示了一个包含元数据和变量的示例数据库。

图 1-4:48 个美国州(不包括阿拉斯加州和夏威夷州,因为缺乏数据)以及哥伦比亚特区的收入和营养数据
州名称 州缩写 中位收入 零食(磅) 苏打水(加仑) 水果蔬菜(磅)
阿拉巴马州 AL $40,751 111.6 75.5 168.3
亚利桑那州 AZ $49,863 109.0 60.0 157.0
阿肯色州 AR $40,001 104.3 70.4 147.3
加利福尼亚州 CA $58,078 105.7 57.6 201.8
科罗拉多州 CO $57,559 109.2 59.8 159.2
康涅狄格州 CT $64,662 131.5 55.7 188.1
特拉华州 DE $56,252 134.6 56.2 218.2
哥伦比亚特区 DC $50,695 122.0 57.0 218.2
佛罗里达州 FL $48,095 104.4 60.8 168.8
佐治亚州 GA $51,673 107.1 61.8 198.4
爱达荷州 ID $49,036 130.0 57.2 185.3
伊利诺伊州 IL $52,677 127.8 69.0 198.0
印第安纳州 IN $47,647 122.3 70.7 184.5
爱荷华州 IA $51,339 121.1 64.9 171.2
堪萨斯州 KS $47,498 120.9 65.0 170.8
肯塔基州 KY $41,320 144.7 77.2 170.7
路易斯安那州 LA $40,016 101.9 70.2 147.1
缅因州 ME $48,592 118.0 59.0 190.0
马里兰州 MD $67,364 125.1 58.0 218.5
马萨诸塞州 MA $60,434 116.8 57.1 155.6
密歇根州 MI $51,305 122.5 70.8 181.2
明尼苏达州 MN $59,910 120.5 65.5 172.8
密西西比州 MS $36,674 112.5 81.2 160.2
密苏里州 MO $47,507 120.6 65.4 172.3
蒙大拿州 MN $42,524 111.0 58.0 175.0
内布拉斯加州 NE $52,134 120.6 65.3 172.4
内华达州 NV $54,500 111.5 58.0 175.3
新罕布什尔州 NH $64,512 115.6 57.4 159.0
新泽西州 NJ $71,284 135.8 53.1 201.1
新墨西哥州 NM $42,850 111.0 58.0 175.0
纽约州 NY $51,763 111.5 56.0 184.9
北卡罗来纳州 NC $44,441 104.6 65.1 165.7
北达科他州 ND $45,184 122.0 64.0 169.0
俄亥俄州 OH $48,884 122.6 69.8 185.0
俄克拉荷马州 OK $41,497 103.6 69.9 143.2
俄勒冈州 OR $49,495 111.0 51.0 173.8
宾夕法尼亚州 PA $51,416 130.0 60.0 203.7
罗德岛州 RI $55,980 115.0 57.0 151.0
南卡罗来纳州 SC $43,338 100.5 71.3 161.5
南达科他州 SD $48,051 122.0 64.0 169.0
田纳西州 TN $43,458 113.9 79.8 167.4
德克萨斯州 TX $45,966 104.7 69.9 162.0
犹他州 UT $59,395 135.0 57.0 188.0
佛蒙特州 VE $55,716 117.8 59.0 187.1
弗吉尼亚州 VA $59,126 110.5 62.6 187.7
华盛顿州 WA $57,148 111.9 51.9 175.0
西弗吉尼亚州 WV $40,611 107.4 67.3 176.0
威斯康星州 WI $52,223 121.3 70.2 183.9
怀俄明州 WY $49,777 114.0 58.3 172.7

图 1-4 中所示的数据库用于进行图 1-2 和图 1-3 中报告的分析。数据库中的前两列是元数据的示例:州名称 (STATE_NAME) 和州缩写 (STATE_ABBR)。这些是对案例的描述性属性,但它们在分析上没有意义。例如,我们不会期望汽水消费量是由州缩写决定的。数据库中的最后四列是变量的示例。第一个变量 (MED_INCOME) 是每个州的中位收入。其他三个变量分别代表人均年甜味零食消费量(单位:磅)(LB_SNACKS)、人均年软饮料消费量(单位:加仑)(GAL_SODA)和人均年水果和蔬菜消费量(单位:磅)(LB_FRUVEG)。与图 1-4 中一样,元数据通常在数据库中首先列出,其次是变量。案例通常使用第一个元数据列作为案例标识符进行排序。在本例中,数据按州名称的字母顺序排序。

数据库中的案例可以是政治单位(如州或国家)、组织(如学校或公司)、个人(如个人或家庭)或任何其他类型的实体。图 1-1 中使用的数据库在图 1-5 中展示。在这个数据库中,元数据出现在第一列 (CHILD_ID) 和第五列 (MOTHER_ID) 中。每个孩子的性别在第三列 (GENDER) 中报告。性别记录为男性为“1”,女性为“2”,母亲的种族记录为白人为“1”,非白人为“2”。孩子家庭的收入变量 (FAM_INC) 和他们母亲家庭的收入变量 (PAR_INC) 出现在第二列和第五列中。请注意,孩子家庭的收入四舍五入,而母亲家庭的收入是精确的。使用这些数据的研究人员必须接受这种不一致并处理它们,因为没有办法回去重新收集数据。我们只能使用数据库中现有的数据。

图 1-5:来自全国青年纵向调查 (NLSY) 的 50 名随机儿童及其父母的收入数据
CHILD_ID FAM_INC GENDER M_RACE MOTH_ID PAR_INC
2001 $150,000 2 1 20 $113,750
4902 $90,000 1 1 49 $90,090
23102 $120,000 2 1 231 $85,811
25202 $68,000 1 1 252 $13,679
55001 $61,000 2 1 550 $71,344
76803 $100,000 2 1 768 $56,784
82802 $50,000 1 1 828 $64,246
97101 $59,000 2 1 971 $32,396
185301 $150,000 1 1 1853 $176,904
226801 $10,000 2 2 2268 $3,786
236901 $100,000 1 1 2369 $182,002
294903 $150,000 2 1 2949 $62,062
302301 $388,387 2 1 3023 $120,120
315101 $60,000 2 1 3151 $37,310
363502 $150,000 2 1 3635 $64,370
385101 $40,000 1 1 3851 $70,980
396204 $100,000 1 1 3962 $62,972
402803 $80,000 1 1 4028 $111,202
411001 $75,000 1 1 4110 $10,804
463102 $75,000 2 1 4631 $61,880
463801 $25,000 1 1 4638 $25,859
511403 $180,000 1 1 5114 $105,196
512302 $70,000 2 1 5123 $41,860
522402 $50,000 2 1 5224 $43,680
542402 $100,000 1 1 5424 $35,736
548301 $30,000 1 2 5483 $46,279
552601 $40,000 2 1 5526 $30,940
576601 $28,000 1 2 5766 $21,849
581101 $40,000 2 2 5811 $72,800
611601 $80,000 2 2 6116 $30,940
616802 $50,000 1 2 6168 $11,102
623801 $50,000 2 2 6238 $26,426
680702 $45,000 1 2 6807 $27,300
749801 $90,000 1 2 7498 $43,680
757802 $90,000 1 2 7578 $30,940
761702 $5,000 2 2 7617 $8,008
771002 $44,000 1 2 7710 $9,218
822603 $150,000 2 2 8226 $180,726
825902 $36,000 2 2 8259 $20,457
848803 $100,000 2 2 8488 $79,549
855802 $32,000 2 2 8558 $7,280
898201 $60,000 1 2 8982 $13,523
906302 $11,000 2 2 9063 $9,218
943401 $20,000 1 2 9434 $7,571
977802 $150,000 1 2 9778 $96,460
1002603 $32,000 2 2 10026 $30,476
1007202 $52,000 2 2 10072 $17,734
1045001 $60,000 2 2 10450 $78,315
1176901 $30,000 2 1 11769 $66,375
1200001 $80,000 1 1 12000 $70,525

此数据库中的每个案例都是围绕母子对构建的大家庭。孩子的家庭收入包括其配偶的收入,而母亲的家庭收入包括其配偶的收入,但母亲的配偶可能是也可能不是数据库中孩子的父亲。由于数据是在母子对上收集的,因此我们无法知道孩子的亲生父亲的收入,除非他们恰好在 1987 年(收集母亲收入数据的时间)与母亲结婚。显然,我们想知道孩子的父亲的收入水平,但数据从未明确收集过。如果父母在 1987 年没有结婚,那么亲生父亲的数据将永远消失。数据限制,如变量的四舍五入以及变量可能不包含我们想要的所有数据,是统计模型中的主要误差来源。

1.3:因变量和自变量

[编辑 | 编辑源代码]

在社会统计学中,我们通常对使用一些变量来解释其他变量感兴趣。例如,在将“人们吃垃圾食品是因为他们买不起高质量的食物”的理论付诸实践时,我们在统计模型(具体来说是散点图)中使用了变量“州中位收入”(MED_INCOME)来解释变量“软饮料消费量”(GAL_SODA)。在这个简单的模型中,我们会说软饮料消费量取决于州中位收入。因变量是指被认为在模型中依赖于其他变量的变量。它们是某种因果过程的结果自变量是指被认为在模型中导致因变量的变量。记住它们的区别很简单。因变量取决于其他变量。自变量是独立的,它们不依赖于任何东西。

一个变量是自变量还是因变量是一个概念化问题。如果研究人员认为一个变量导致另一个变量,那么原因是自变量,结果是因变量。同一个变量在一个模型中可以是自变量,而在另一个模型中可以是因变量。但是,在任何一个特定模型中,应该清楚哪些变量是自变量,哪些变量是因变量。同一个变量不能同时是两种:一个变量不能导致它自己。

要了解一个变量如何从自变量变为因变量的例子,请回顾图 1-1。在那张图中,父母的收入是自变量,孩子的收入是因变量(在模型中,父母的收入导致孩子的收入)。但是,父母的收入本身也可能由其他变量引起。我们可以将一个统计模型付诸实践,其中父母的家庭收入(变量 PAR_INC)取决于父母的种族 (M_RACE)。我们使用母亲的种族来代表父母双方的种族,因为我们没有每个母亲的配偶(如果有的话)的数据。父母家庭收入与种族的散点图在图 1-6 中展示。请记住,变量 M_RACE 的编码方式是 0 = 白人,1 = 非白人。显然,白人父母的家庭收入(平均)远远高于非白人父母,几乎高出一倍。但是,与任何统计模型一样,仍然存在大量误差:种族在美国解释了很多东西,但不能解释一切。

A scatter plot of race and income with a negative correlation
图 1-6:1987 年家庭收入(按通货膨胀调整)与 50 名随机美国人的种族的关系(NLSY 数据)

就像父母的收入一样,任何变量都可以是自变量或因变量。这完全取决于具体情况。本章中迄今为止使用过的所有因变量和自变量都在图 1-7 中总结。一个箭头 (→) 用于指示哪个变量被认为导致哪个变量。请记住,在每个模型中,自变量导致因变量。这等同于说因变量取决于自变量。由于父母的收入被用作自变量(图 1-1)和因变量(图 1-6),因此它在表中出现了两次。州中位收入也使用了两次,两次都用作自变量(图 1-2 和图 1-3)。

图 1-7:因变量、自变量和模型示例
自变量 因变量 模型 趋势
图 1-1 父母的收入 → 孩子的收入 散点图 上升
图 1-2 州中位收入 → 软饮料消费量 散点图 下降
图 1-3 州中位收入 → 甜味零食消费量 散点图 上升
图 1-6 父母的种族 → 父母的收入 散点图 下降

在表 1-1 中报告的每个示例中,用于理解自变量和因变量之间关系的统计模型都是散点图。在散点图中,自变量始终绘制在水平 (X) 轴上。因变量始终绘制在垂直 (Y) 轴上。在每个散点图上,点云的中间已经画了一条线,以帮助说明数据的总体趋势。在图 1-1 中,总体趋势是上升:父母的收入与孩子的收入呈正相关。在图 1-2 中,总体趋势是下降:州中位收入与软饮料消费量呈负相关。在图 1-3 和图 1-6 中,趋势再次分别上升和下降。无论趋势是上升还是下降,趋势的存在都表明自变量和因变量之间存在关系。

散点图是一个非常简单的统计模型,有助于显示一个自变量和一个因变量之间的总体关系。在以后的章节中,我们将研究更复杂的统计模型。其中许多模型将允许使用多种不同类型的自变量,但本书中使用的每个模型都只有一个因变量。具有多个因变量的模型确实存在,但它们复杂得多,不会在此处讨论。

1.4:推断因果关系

[编辑 | 编辑源代码]
可选/高级

社会科学家几乎总是对提出关于因果关系的主张感兴趣,即声称一个变量导致另一个变量。我们怀疑工作场所的性别歧视会导致女性工资降低,教育会导致生活满意度提高,社会不平等会导致社会暴力水平上升。问题是,在社会科学中,几乎不可能证明一个变量导致另一个变量。相反,社会科学家必须利用他们掌握的事实和推理,尽可能地推断因果关系。

在社会科学中建立因果关系非常困难,因为大多数社会科学问题无法使用实验进行研究。在实验中,研究对象被随机分配到两个组,即实验组和对照组。实验组的受试者接受某种处理,而对照组的受试者接受不同的处理。实验结束时,两个组受试者之间任何系统性的差异都必须是由于处理的差异造成的,因为这两个组在其他方面具有相同的背景和经历。

在社会科学中,实验通常是不可能的。例如,我们强烈怀疑工作场所的性别歧视会导致女性工资降低。唯一确定这是否属实的方法是招募一群女性,并将她们随机分配到不同的工作场所,其中一些是性别歧视的,而另一些则不是。工作场所必须是相同的,除了性别歧视。然后,几年后,我们可以打电话给这些女性,检查一下她们的工资。任何在性别歧视工作场所工作的女性与在非性别歧视工作场所工作的女性之间工资的系统性差异都可以归因于性别歧视,因为我们一定会知道两个组及其经历之间没有其他系统性差异。

当然,这样的实验是不可能的。作为实验的替代,社会科学家进行访谈和调查。我们询问女性是否在工作中经历过性别歧视,然后询问她们的收入。如果经历过性别歧视的女性收入低于没有经历过性别歧视的女性,我们推断这种差异可能是由于工作场所中存在的实际性别歧视。

然而,社会科学家在得出因果推论时往往非常谨慎,因为可能存在许多其他因素。例如,研究中收入较低的女性可能错误地认为她们的工作场所存在性别歧视(反向因果关系)。甚至可能,在人员被裁减的高压工作环境中,管理人员的性别歧视态度和所有人的工资降低,包括女性,同时存在(共同因果关系)。许多其他可能性也存在。在实验框架之外,因果关系非常难以确定。

大多数社会科学家接受三个基本条件,这些条件共同确定一个自变量实际上导致了一个因变量。

  • 相关性:当自变量发生变化时,因变量也发生变化。
  • 先于性:自变量在逻辑上先于因变量。
  • 非虚假性:自变量和因变量没有同时被其他因素所导致。

在这三个条件中,相关性是迄今为止最容易证明的。本章中描述的所有散点图都证明了相关性。在每种情况下,因变量的值都倾向于随着自变量的值在一个方向(向上或向下)移动。

先于性有时也很容易证明。例如,在图 1-6 中,很明显种族在逻辑上先于收入。争辩相反,即人的收入导致他们的种族身份,这是没有意义的。在其他时候,先于性可能更具争议性。例如,许多发展社会学家认为,普及教育会导致经济发展:受过教育的劳动力是发展所必需的。然而,也可能相反,经济发展会导致普及教育:当国家足够富裕能够负担得起时,它们就会为所有人民支付教育费用。社会政策制定的主要挑战之一是确定连接变量的因果关系的方向。

另一方面,非虚假性几乎总是非常难以确定的。当两个变量之间观察到的关系不反映变量之间任何真实联系时,该关系被称为“虚假”。例如,吸烟会导致肺癌,吸烟会导致口臭,但口臭不会导致肺癌。图 1-8 描述了这种虚假性的总体逻辑。在图 1-8 中,统计模型中两个变量之间存在虚假关系。自变量和因变量之间观察到的相关性的真正原因是,它们都由第三个共同原因变量引起。这种情况在社会科学中非常普遍。为了能够声称一个变量导致另一个变量,社会科学家必须证明自变量和因变量之间观察到的关系不是虚假的。

A diagram of a spurious relationship between three variables
图 1-8:虚假关系的图示

证明非虚假性的问题是,可能存在许多原因导致关系可能是虚假的。回到父母收入和子女收入之间的关系,很容易看出这两个变量之间存在相关性(图 1-1)。父母收入先于子女收入也很明显。但非虚假性呢?父母收入和子女收入之间的关系可能是虚假的,原因有很多。我们已经看到一个:种族。非白人父母往往有非白人子女,因此,可能不是父母收入导致子女收入,而是家庭的种族决定了父母和子女的收入(种族是共同原因变量)。这可以解释父母收入和子女收入之间观察到的相关性。其他可能的共同原因变量包括

  • 家庭居住地
  • 家庭重视赚钱的程度
  • 父母的受教育程度(这会影响子女的教育选择)
  • 父母的子女数量

最后一个共同原因变量是一个具有指导意义的例子。理论上,拥有大量的孩子可能会迫使父母呆在家里而不是工作,降低他们的收入,并使他们难以负担得起子女的大学教育,从而导致子女收入也较低。对于大多数理智的人来说,这可能看起来像一个非常不可能的情况。问题在于,不同的人对什么是合理的持有不同的看法。为了确定关系的非虚假性,研究人员不仅要让自己信服,他们还需要让其他人信服,而每个人对什么可能会在两个变量之间产生虚假关系都有不同的看法。最终,不可能证明非虚假性。相反,社会科学家会争论,直到他们达成共识,或者他们只是继续争论。因果关系总是存在争议。

1.5:案例研究:教育支出和学生表现

[edit | edit source]

众所周知,有好的学校,也有不好的学校。大多数家长在寻找新住处时问的第一个问题是“学校怎么样?”常识表明,好的学校,平均来说,是富裕的学校。每个人都希望他们的孩子进入拥有全新的计算机实验室、令人印象深刻的运动设施、新粉刷的走廊和漂亮的绿草坪的学校。家长们也希望他们的孩子在由拥有硕士学位和博士学位的有才华、经验丰富的教师教授的小班里得到个性化的关注。活跃的乐队、合唱团和艺术项目也是一个加分项。所有这一切都需要资金。

从父母希望将孩子送入运营成本很高的学校这一观察结果得出的合理概括是,在教育上花费更多资金的州将比在教育上花费更少资金的州拥有更好的学校。这种概括可以概念化为一个理论,即学生的总体表现取决于(至少部分取决于)一个州为每个学生花费的资金。可以使用来自美国国家教育统计中心 (NCES) 的数据来检验该理论。从 NCES 网站下载的数据库在图 1-9 中被复制。案例是美国 50 个州。有两个元数据列 (STATEABBR) 和三个变量 (SPENDREAD_NATMATH)

  • SPEND - 每个学生的州和地方教育总支出
  • READ_NAT - 英语为母语的八年级学生的州平均阅读分数
  • MATH - 所有八年级学生的州平均数学分数
图 1-9:美国 50 个州的教育支出和学生表现数据
缩写 支出 阅读_国籍 数学
阿拉巴马州 AL $10,356 255.5 268.5
阿拉斯加 AK $17,471 263.7 283.0
亚利桑那州 AZ $9,457 260.8 277.3
阿肯色州 AR $9,758 258.9 276.0
加利福尼亚州 CA $11,228 261.5 270.4
科罗拉多州 CO $10,118 268.5 287.4
康涅狄格州 CT $16,577 272.8 288.6
特拉华州 DE $13,792 265.6 283.8
哥伦比亚特区 DC $17,394 243.2 253.6
佛罗里达州 FL $10,995 265.3 279.3
佐治亚州 GA $11,319 260.9 277.6
夏威夷 HI $14,129 256.9 273.8
爱达荷州 ID $7,965 266.4 287.3
伊利诺伊州 IL $12,035 265.6 282.4
印第安纳州 IN $11,747 266.1 286.8
爱荷华州 IA $11,209 265.6 284.2
堪萨斯州 KS $11,805 268.4 288.6
肯塔基州 KY $9,848 267.0 279.3
路易斯安那州 LA $11,543 253.4 272.4
缅因州 ME $13,257 267.9 286.4
马里兰州 MD $15,443 267.5 288.3
马萨诸塞州 MA $15,196 274.5 298.9
密歇根州 MI $11,591 262.4 278.3
明尼苏达州 MN $12,290 271.8 294.4
密西西比州 MS $8,880 251.5 265.0
密苏里州 MO $11,042 267.0 285.8
蒙大拿州 MT $10,958 271.4 291.5
内布拉斯加州 NE $11,691 267.8 284.3
内华达州 NV $10,165 257.4 274.1
新罕布什尔州 NH $13,019 271.0 292.3
新泽西州 NJ $18,007 272.9 292.7
新墨西哥州 NM $11,110 258.5 269.7
纽约州 NY $19,081 266.0 282.6
北卡罗来纳州 NC $8,439 261.1 284.3
北达科他州 ND $11,117 269.5 292.8
俄亥俄州 OH $12,476 268.8 285.6
俄克拉荷马州 OK $8,539 260.4 275.7
俄勒冈州 OR $10,818 267.8 285.0
宾夕法尼亚州 PA $13,859 271.2 288.3
罗德岛州 RI $15,062 261.3 277.9
南卡罗来纳州 SC $10,913 257.5 280.4
南达科他州 SD $9,925 270.4 290.6
田纳西州 TN $8,535 261.3 274.8
德克萨斯州 TX $9,749 263.2 286.7
犹他州 UT $7,629 267.2 284.1
佛蒙特州 VT $16,000 272.6 292.9
弗吉尼亚州 VA $11,803 266.6 286.1
华盛顿州 WA $10,781 268.7 288.7
西弗吉尼亚州 WV $11,207 254.9 270.4
威斯康星州 WI $12,081 266.7 288.1
怀俄明州 WY $18,622 268.6 286.1

学生的总体表现取决于一个州为每个学生花费的资金的理论可以操作化为两个具体的假设

  • 州每学生的支出与州平均阅读分数呈正相关
  • 州每学生的支出与州平均数学分数呈正相关

在图 1-10 和图 1-11 中,散点图用作统计模型,用于将州支出与州阅读和数学分数联系起来。图 1-10 中的因变量是 READ_NAT(英语为母语的学生的阅读表现),而图 1-11 中的因变量MATH(数学表现)。这两幅图中自变量都是 SPEND。在这两幅图中,州平均分数在支出较高的州确实倾向于更高,但在解释分数方面存在大量误差。除了州支出之外,学生考试分数可能还受许多其他因素影响。分数可能会受到诸如父母受教育程度、家庭收入水平、学生吸毒水平以及州是否为了人为地提高成绩而“针对考试教学”等因素的影响。尽管如此,很明显,(平均而言)州支出越多,他们的分数就越高。

A scatter plot of spending per pupil with a positive correlation
图 1-10:美国 50 个州的八年级英语为母语的学生平均阅读表现与教育支出对比
A scatter plot of spending per pupil with a positive correlation
图 1-11:美国 50 个州的八年级数学平均表现与教育支出对比

这些数据分析的结果倾向于证实学生的总体表现取决于(至少部分取决于)一个州为每个学生花费的资金的理论。该理论可能是也可能不是真的,但这里提供的证据与该理论一致。结果表明,如果各州希望提高学生的考试成绩,他们应该增加学校预算。在教育方面,就像在大多数事情中一样,一分钱一分货。

第一章关键术语

[edit | edit source]
  • 概念化关于社会世界某些方面的理论发展过程
  • 案例收集了数据的个人或实体
  • 数据库将数据排列成变量和案例
  • 因变量在模型中被认为依赖于其他变量的变量
  • 概括将关于特定情况的理论转化为适用于许多情况的理论的行为
  • 自变量被认为导致模型中因变量的变量
  • 元数据案例的附加属性,这些属性不打算包含在分析中
  • 操作化是指将社会理论转化为关于真实数据的具体假设的过程
  • 散点图是将数据绘制在图表上的非常简单的统计模型
  • 统计模型是对现实世界进行数学简化的模型
  • 变量是案例的分析意义属性

引言 · 第二章



华夏公益教科书