跳转到内容

实验设计食谱/第 3 章:完全随机设计

来自维基教科书,开放书籍,开放世界

这是一个关于双因素,多水平实验的示例食谱。它使用从“Cars.csv”中获取的数据(一些原始数据信息丢失,因此我们删除了这些观测值。)来确定车辆的年份或车辆制造的国家是否对车辆的马力有任何影响。因素年份有 13 个水平,因素原产国有 3 个水平。这项研究不涉及随机化,因为这个数据集描述了每种汽车型号的信息。我们可以相信,在他们获取汽车型号信息之前,是随机抽取的样车。例如,对于丰田凯美瑞的信息,是随机抽取相同的类型汽车,进行测试,并计算类型信息。这项工作中也不包括重复。重复是指重复实验条件,以便能够估计与现象相关的变异性。我们没有样本可以重复。进行方差分析,以确定车辆样本之间马力均值的差异是否是由车辆年份和原产国造成的。我们首先基于方差分析测试不同年份之间的马力均值。该检验的零假设是每个年份的马力均值相等。然后,我们进行单因素方差分析检验,得到 p 值 < 0.0001,因此我们拒绝零假设,并说明至少有一个马力均值不等于其他均值。在第二个检验中,我们关注国家的因素,零假设是每个国家地区的马力均值相等。然而,方差分析检验的结果表明,至少有一个马力均值不等于其他均值 (p 值 < 0.0001)。最后,我们分析了马力变化与年份和原产国的交互作用的结果,并获得了 p 值 < 0.05。交互项可能对马力均值有影响。进行 Tukey 的诚实显著差异检验,以确定哪些马力均值与其他均值显著不同。 http://rpubs.com/maxwinkelman/32711


以下链接指向一个三因素,多水平分析。所使用的数据来自一项涉及数年内各州的交通事故死亡率、酒精和酒驾法律以及一般人口统计信息的调查。在该研究中,我们对三个因素进行了方差分析,分别是最低法定饮酒年龄、该州是否强制执行对违规行为的监禁判决以及该州的人均个人收入,以确定它们是否对响应变量有影响,即该州的交通事故死亡率(每 10,000 人)。数据已从 R 中的“Ecdat”数据包获取。目前尚不清楚数据是否已完全随机收集。然而,对该数据的分析是在假设数据是随机收集的情况下进行的。谈到重复和重复测量,每个输入变量的配置在数据中只出现一次,因此,没有重复测量的证据。在分析过程中,所有数据都一起分析,因此也没有分块。在了解了数据的背景之后,数据分析分为三个步骤:(i)探索性数据分析(EDA),(ii)使用方差分析的假设检验,以及(iii)诊断和模型准确性检查。 http://rpubs.com/Tothk2/DOERecipe3

在这项研究中,将进行一个双因素,多水平实验(使用 Lahman 的棒球数据库),以查看给定球队在给定赛季中获得的击球次数或给定球队在给定赛季中获得的本垒打次数(或者,通过交互作用两者都)是否对给定球队在给定赛季中获得的获胜次数有统计学意义的影响。在数据集中,因素“H”指的是给定球队在给定年份中获得的击球次数,因素“HR”指的是给定球队在给定年份中获得的本垒打次数。此外,此分析的响应变量在数据集中被称为“W”,它表示给定球队在给定年份中获得的常规赛获胜次数。为了确定这种显著性水平,进行了方差分析,并计算了 Tukey 诚实显著差异。
http://rpubs.com/howelb/46076<br\>

此分析是一个三因素多水平设计,它使用来自 CS-A 考试的数据。数据来自所有 50 个州,记录了数年。但是,我们对这些数据进行子集分析,以分析“每位教师的产量”以及女性学生通过率对所有少数民族群体在该 CS 考试中的表现的影响。第三个因素是时期或每个连续年份。这个假设背后的理由是,随着每一年过去,鉴于计算机在日常生活中的使用不断增加,我们可以分析其对教育方面的影响,例如少数民族群体在 CS 考试中的表现。该实验的设计更侧重于方差分析检验以及 Tukey 的 HSD 检验。 http://rpubs.com/Uzma_1004/32868


以下链接指向一个双因素,多水平数据分析。感兴趣的数据是通过傅里叶变换红外光谱实验获得的一系列吸光度值,用于评估生物材料制造后残留溶剂的存在。实验运行以随机顺序进行。每个处理有 11 个重复,分析中使用平均值。该分析使用固定效应模型,其中因素“处理”和“天数”解释了数据中解释的方差。该分析侧重于方差分析,并通过使用 Tukey 的诚实显著差异检验进行扩展,该检验确定了被分析的每个因素的每个水平之间的显著差异。 http://rpubs.com/adamato/32887

以下检验是一个三因素,多水平数据分析。数据集从世卫组织网站获取,其中包含有关香烟消费的信息。此分析的目的是测试可能影响吸烟人口比例的三个可能因素,即区域、性别和受教育年限。方差分析还分析了它们组合的模型,以解释吸烟比例的方差。Tukey 检验和其他模型检查方法用于选择和检查模型的充分性。这种分析可能对未来减少吸烟具有实际意义。 http://rpubs.com/chenh16/32918


以下分析是对多因素,多水平方差分析。数据由世界卫生组织收集,查看性别、国家、地区、收入群体和其他因素对死亡率(每 1000 人)的影响。在这个方差分析中,死亡率被作为响应变量,并设计了模型来分析哪些因素可能导致组之间的差异。然后使用 Tukey 检验来查看组中不同处理水平之间的差异。通过模型充分性检验,确定数据不正常,因此不满足方差分析所需的假设。因此,执行了 Kruskal-Wallis 检验,作为非参数双向方差分析。 http://rpubs.com/braunj6/32931


以下链接指向一个双因素,多水平实验。数据集是来自 R 中 Ecdat 包的加州考试分数数据集。数据来自 1998 年和 1999 年的加州学校。在这个数据集中,有 17 个连续变量。对于这些实验,观察的两个因素是连续变量:每名学生的计算机数量和师生比例。响应变量是学校的平均阅读分数。由于数据集不包含加州的所有学校,我们可以假设学校是通过某种抽样设计随机选择的。

方差分析检验用于分析平均阅读分数的变化是否可能来自每名学生的计算机数量的变化或师生比例的变化。这个实验的零假设是平均阅读分数的变化不能来自每名学生的计算机数量的变化或师生比例的变化。备择假设是变化可能来自每名学生的计算机数量的变化或师生比例的变化。然后,这个实验用于检验假设。

使用了三种不同的方差分析检验。第一个方差分析检验用于确定平均阅读分数的变化是否可能来自每名学生的计算机数量的变化。根据此检验的结果,拒绝零假设,并且可以通过随机化以外的其他因素解释平均阅读考试分数,例如每名学生的计算机数量。第二个方差分析检验用于确定平均阅读分数的变化是否可能来自师生比例的变化。根据此检验的结果,也拒绝了零假设,并且可以通过随机化以外的其他因素解释平均阅读考试分数,例如师生比例。第三个方差分析检验用于确定平均阅读分数的变化是否可能来自每名学生的计算机数量和师生比例的交互作用的变化。根据此检验的结果,可以将平均阅读考试分数归因于每名学生的计算机数量或师生比例。关于每名学生的计算机数量和师生比例的交互作用,总方差不可能是随机化以外的任何因素的结果。 http://rpubs.com/tranc3/32941

以下分析是对多因素,多水平方差分析。数据由大都市加州地区的收集人员收集,并试图根据许多因素提供一些关于该地区空气质量的见解。在这个方差分析中,空气质量是响应变量,被测试的因素包括该地区的地理位置和降雨量。然后使用 Tukey 检验来验证模型并检查模型的充分性。该检验确定了被分析因素的每个水平之间的显著差异。 http://rpubs.com/macchm/32950

以下链接分析了一组关于棒球捕手的统计数据,并考察了 3 个单独捕手统计数据对其球队防御率或失分的影响。研究的重点统计数据包括失误 (E)、接杀 (PO) 和盗垒 (SB)。这些因素代表了捕手可能直接影响对方球队得分属性。进行了一项多因素多水平方差分析检验。创建了多个模型来考察影响,然后对模型进行检查以确保它们符合假设。Tukey 范围检验分析了每个水平上每个因素的所有组合,以检验各组均值之间是否存在差异。还分析了各组之间的交互作用,以尊重因果关系和相关性的概念:http://rpubs.com/svoboa/33092

本研究探讨了关于高级选修课程通过率的数据,以评估各种协变量的影响。主要目标是评估两个因素,学校数量和考试数量,是否会影响每个州的考试通过总数。进行了初步方差分析以确定处理对因变量的影响。然后,对两个因素进行独立效应检验,并使用区组技术估算交互效应。此外,通过检查正态性、拟合值与残差以及 TukeyHSD 图来评估模型的充分性。最后,构建交互图以观察因素之间任何潜在的交互效应。https://rpubs.com/manzat/32405

该研究收集了数据,以考察钻石的颜色和净度对钻石价格的影响。该研究包括一项多因素多水平方差分析;这在已收集的数据上进行。首先要注意的是,因为我们没有参加实验(数据收集),所以不能假设完全随机化设计。完全随机化设计包括进行测试/收集数据的随机顺序。这通常通过在收集数据之前随机分配所有将要进行的实验的样本顺序来完成。数据的组织方式似乎表明它不是随机的;尽管它也可能意味着它是在收集后格式化的。钻石的价格由 4C(克拉、净度、颜色和切工)定义,分析是对其中两个因素进行的。由于它包含在数据集中,因此也可以将克拉作为因素纳入,但是出于教育目的,可能认为两个因素就足够了。在构建 aov 模型后,可以看出,净度因素的 p 值接近 0,并且具有相当大的 F 值。因此,可以接受备择假设(净度和价格之间存在关系)。然而,对于颜色,p 值为 0.095,F 值(1.9)更小。当检验交互作用时,p 值很小为 0.016,F 值为 1.85,这表明可能存在影响价格的交互作用。根据使用的阈值,结果表明钻石的净度级别和/或净度与颜色之间的交互作用可能有助于解释钻石定价的差异。http://rpubs.com/serena049/doehw3


以下对完全随机化实验设计的分析使用双因素方差分析,以考察母亲种族和产前检查频率对婴儿出生体重的影响。这尤其重要,因为低出生率的后果是婴儿死亡率和出生缺陷率高。189 个样本数据提供了关于母亲在怀孕期间的行为的信息,这是新生儿健康的强有力预测指标。预测变量或效应被认为是吸烟习惯、饮食习惯和产前保健水平。这种情况下的兴趣因素是种族和产前保健水平,分别由变量 RACE 和 FTV(孕早期医生检查次数)描述。生成了条形图,比较了对检查次数做出反应的人的种族。响应变量(出生体重,用 BWT 表示)以克为单位测量,并呈现描述性统计数据。生成了一个随机实验,用于检验 RACE 或 FTV 是否可以预测 BWT 的假设。箱线图显示白人新生儿的 BWT 范围很广,而黑人新生儿和“其他”新生儿的范围更窄,并且有一个异常值。QQ 图的拟合假设数据具有一定的正态性,但结果并不完美。RACE 和 FTV 之间可能存在轻微的交互作用,但效应并不立即明朗。可以拒绝零假设,该假设提出随机化本身就可以解释 BWT 的差异。RACE 是一个显著因素,P 值为 0.0071,但未发现 FTV 或 FTV*RACE 之间的交互效应显著。Tukey 比较突出显示了白人母亲和“黑人/其他”类别之间平均出生体重的差异。绘制残差验证了模型关于正态性的假设。http://rpubs.com/konraz/39538


2016 年秋季项目

以下链接考察了“Ecdat”包中的 Stars 数据集。Star 数据集用于考察“小班规模对学习的影响”,包含 8 个变量和 5748 个观测值。在观测值中随机选择了 4000 个观测值,并将课堂类型(3 个水平)、教师经验(2 个水平)、性别(2 个水平)、免费午餐支持(2 个水平)定义为因素。分析的响应变量是学生的数学分数,它也是一个连续变量。为了分析主要效应和交互效应,零假设设置为:“小班的学习不受课堂类型、学生性别、教师经验、免费午餐资格以及这些因素的任何双向交互作用的影响。”方差分析结果表明,所有主要效应以及一些交互效应都具有统计显著性。主要效应和交互效应已计算并使用 pid 包呈现。使用 QQ 图和残差与拟合变量图对正态性和同质性进行评估,确认了模型的充分性。http://rpubs.com/unnuk/216193


此链接考察了 R 中可用的“Ecdat”包中的名为 wages 的数据集。该数据集是 7 年间对 595 个户主进行调查的结果,总共 4165 个观测值。在最初的 11 个因素中,选择了 4 个具有 2 个水平的因素:蓝领、南部、性别和工会制定的工资。生成了主要图和交互图,并使用单因素或双因素方差分析检验结果的统计显著性。三个主要效应和六个交互效应中的四个具有显著性,尽管一些交互效应很小。http://rpubs.com/mtwassick/217369


以下链接考察了 100 个有趣的数据集中的全球健康数据。在全球健康数据中,选择了“心理健康”,其中包括心理健康治理(3 个因素:立法、计划和政策)、人力资源(1 个因素:精神科医生)和自杀率(1 个响应变量)。该数据集是为考察心理健康护理(治理和人力资源)对自杀率的影响而收集的,包含 5 个变量和 160 个观测值。我们使用 4 个具有两个水平的因素来分析它们对自杀率的主要效应和交互效应。立法和精神科医生(主要效应)在 1% 的显著性水平上具有统计显著性。然而,在本实验中,5% 的显著性水平上没有统计上显著的交互效应。http://rpubs.com/bokjh3/217510

本实验考察了多种童年经历对未来工资的影响。本实验的数据来自一项关于工资、教育和大学附近距离的研究。数据收集于 1976 年的美国个人。该数据集是 Ecdat 包中的 Schooling 数据集。该数据集中有 3010 个观测值和 28 个变量。本实验考察了多种童年经历对未来工资的影响。在本实验中,研究了四个因素,每个因素都有两个水平。研究的因素包括一个人是否在都会统计区(人口密度相对高的地区)长大,水平为是和否;一个人是否在距离 4 年制大学很近的地方长大,水平为是和否;一个人在 14 岁时是否有图书馆证,水平为是和否;一个人在 14 岁时是否有单亲母亲,水平为是和否。响应变量是工资的对数,是一个具有正态分布的连续数值。本研究介绍了实验设计、探索性数据分析,并检验了正在考察的四个主要效应和六个交互效应。所有四个主要效应在 5% 的显著性水平上都具有显著性,其中一个交互效应在该水平上具有显著性。http://rpubs.com/shamuswheeler/217564

在本研究中,我们打算使用 Kaggle 上的 Titanic 数据集对泰坦尼克号幸存者进行统计分析。我们在这里要解决的主要问题是,一个人是否存活与其乘客等级、年龄、性别和/或他们开始旅程的港口之间是否存在统计上显著的关系。http://rpubs.com/prasanna_date/217915

华夏公益教科书