实验设计配方/第 8 章:部分因子设计
部分因子设计
所分析的数据集包括 403 名患者的潜在 2 型糖尿病医学指标数据。使用部分因子设计,实验将测试 6 个因素中的哪些因素表明对 2 型糖尿病发病的易感性,该易感性通过响应变量糖化血红蛋白百分比来衡量。世界卫生组织建议使用至少 6.5% 的糖化血红蛋白阈值来确定 2 型糖尿病的存在。由于实验设计的性质 (2^k),6 个预测变量被类型转换为因子并简化为两个水平,用于方差分析模型。这是通过将大于和小于列均值的值分别定义为“1”和“-1”来完成的。[1]
本实验设计配方采用包含 64 个总实验运行的数据集,并分析响应变量中相对于六个因素的方差,每个因素具有两个水平。完成此操作后,将创建 1/2 部分的部分因子设计,并再次分析数据。这样做是为了展示部分因子设计的正确使用方法以及 R 包 FrF2。[2]
以下配方分析了特定车辆参数对燃油里程 (mpg) 的影响。分析的数据集包含 6 个因素,每个因素包含两个水平,产生总共 64 个运行。最初执行方差分析以确定任何因素的变异是否对燃油里程的变异有影响。之后,将使用现有数据集创建部分因子设计,并执行第二次方差分析以确定对统计结果的影响。 http://rpubs.com/maxwinkelman/42704
这是一个 2^k-1 (在这种情况下 k=6) 设计,它涉及创建具有正好 2 个水平的部分因子设计。数据是涉及材料强度的大型数据集的子集。我们只考虑混凝土混合物的成分和强度。自变量是用于制造用于各种建筑应用(建筑物和桥梁)的混凝土混合物的各种成分(在这种情况下仅考虑 6 种)。混凝土混合物的“强度”是响应变量。 http://rpubs.com/Uzma_1004/42659
以下分析的数据是关于房价和可能影响房价的因素。我们应用部分因子设计策略,并测试它是否可以获得与完全因子设计相同的结果。这是一个 2^k-1 设计,其中有 6 个因素 (k=6),即是否有车道、娱乐室、完全装修的地下室、燃气供暖、中央空调以及是否位于城市的首选社区。比较方差分析和模型充分性检查结果,似乎部分因子设计能够在一定程度上反映完全因子设计的結果。 http://rpubs.com/chenh16/42734
以下配方是对涉及交通事故死亡数据和人口统计信息以及驾驶相关法律的数据集进行方差分析。除了对一般线性模型的传统方差分析外,还创建并使用了部分因子模型。该模型是 2^6 因素设计,仅分析了 32 个运行 (2^(6-1))。零假设是响应变量交通事故死亡率与因素无关。[3]
在本研究中,使用从“失业保险福利水平对领取福利的影响”(McCall, B.P. 1995)收集的数据,进行了一个六因素、两水平实验,以观察是否是白人、接受超过 12 年的学校教育、是男性/女性、已婚、有孩子或以前申请过失业保险福利对州失业率 (以 %计) 有统计学意义的影响。在确定这种显着性水平时,执行了方差分析,计算了 Tukey 诚实显著差异,并生成了部分因子设计 [2^(6-1)]。[4]
本配方正在检查 Ecdat 包中的蓝领工人失业情况。我们正在查看 6 个不同的因素(每个因素有 2 个水平)如何影响替代率。- Cheryl Tran, http://rpubs.com/tranc3/42909
以下配方是对 Ecdat 包中的 Computers 数据集进行分析。这是一个 2^k-1 部分因子设计,其中 k = 6。目标是测试测试结果是否会产生相同的结果,无论是否进行部分因子分解。方差分析和模型充分性技术用于确定统计结果的影响。- Matthew Macchi http://rpubs.com/macchm/44747
本配方使用 Ecdat 包中的数据。数据集本身包含个人在一年内前往医生的次数观察结果。所讨论的一些因素包括种族、性别、受教育年限、个人的感知健康状况、就业状况和婚姻状况。为了查看除了随机化之外的因素是否可以解释个人之间医生就诊频率的差异,完成了方差分析。在方差分析之后,生成了 2^(k-1) 部分因子设计。 http://rpubs.com/braunj6/42823
本项目的目的是创建一个具有 6 个因素的 2 级半部分因子设计。用于本实验的数据集是 R 中“Ecdat 包”中的“Benefit”,用于探索 1972 年蓝领工人的州失业率的影响因素。结果表明,部分因子设计有助于大幅减少估计时间和成本,并且能够保持从完全因子设计中生成的部分结果。我们的结果表明,州失业率的变化不能仅用样本随机化来解释。- Wei Zou[5]
以下分析使用部分因子设计上的方差分析来检查几个物理化学因素如何影响红酒的感知质量。[6]
在以下实验中,分析了 Ecdat 包中的 Somerville 数据集。数据基于观察结果,例如他们是否支付年度费用或参加滑雪,这些观察结果来自访问索默维尔湖的个人。除了基本的探索性数据分析、方差分析模型和模型充分性检查外,还使用了新的包 FrF2。创建了 2^(k-1) 或半部分设计。在本配方的例子中,我们使用 k=6,产生 32 个运行。每个因素都有 2 个水平 (1 或 -1)。[7]
2016 年秋季项目在此
Michael W - 以下实验分析了 R 中 Ecdat 包中的 OFP 数据集。实验的目的是研究 4 个因素对受试者前往医生办公室的次数的影响。使用 FrF2 计算了 2^6-3 设计,其中 6 个因素是通过将两个 3 级因素分解为 2 级因素并将 2 级因素保持原样而创建的。分析了设计,并计算了主效应和混杂。主效应的大小和方差分析用于确定最终模型中的包含。结果表明,2 个因素是显著的,而另外 2 个因素则不显著,并且模型存在一些偏离正态性的情况,这表明还有其他因素可以改进模型。[8]
Bjarke H - 本实验分析了 Ecdat 包中的 Star 数据集。主要关注的是 4 个因素,其中 2 个因素具有 3 个水平。这两个 3 级因素分解为四个 2 级因素,并使用 FrF2 来构造部分因子设计的计划矩阵以及混杂结构。主效应和交互效应在方差分析 (ANOVA) 中估计。 http://rpubs.com/bjarke1/project3
Kristen C - 本实验分析了 Ecdat 包中的 Housing 数据集。该数据集由 1987 年温莎 546 套房屋的价格和其他房屋变量的观察结果组成。我们将重点关注的四个自变量是:浴室 (3 级)、楼层 (3 级)、全地下室 (2 级) 和车道 (2 级),响应变量是:价格。实验设计将每个三级因素合并为两个二级因素。使用方差分析估计主效应和交互效应,并通过绘制残差来验证模型。 http://rpubs.com/Kristencole3/234231
Molly R - 本实验分析了来自 Ecdat 包的健康保险数据集。本实验分析了妻子每周工作的小时数,作为她是否被丈夫的健康保险覆盖、她是否通过工作获得健康保险、她的种族(黑人、白人或其他)以及她的地区(南部、西部、中北部)的函数。分数阶乘设计将两个三水平因素分解为四个两水平因素,使其成为一个 2^6 设计,近似于一个 2^3 设计。分析发现,丈夫和妻子的健康保险因素是显著的,以及他们是否是白人,以及他们是否住在西部地区。然而,数据集不符合正态性假设,因此应进行进一步分析以确认这些因素,并检查别名双因素交互作用。[9]
Kaan U - 使用 (2^6-3) 分数阶乘设计分析了 ECDAT 包中的住房数据集。为该设计选择了两个两水平因素(完整完成的地下室和房屋是否位于首选区域)和两个三水平因素(房产的占地面积和卧室数量)。通过此初步筛选分析,我们发现所有因素均为显著因素。但是,使用这些发现对完整数据集进行建模不完全符合正态性假设,需要进一步分析。 http://rpubs.com/unnuk/234307
Joonhyuk Bok - 在 Ecdat R 包中的数据集里,我们选择了“Mathlevel”,这对于预测 SAT 数学成绩会很有用。在 Mathlevel 数据中,'language'、'sex'、'physiccourse' 和 'chemistcourse' 被选为因素,这些因素可以解释 SAT 数学成绩的结果,并且分别具有 2 个水平、2 个水平、3 个水平和 3 个水平。'sat' 被选为响应变量。为了减少达到适当结论所需的计算能力和运行次数,进行了分数阶乘设计。具有 3 个水平的因素将被分解为具有 2 个水平的因素,以便计算获得适当数据所需的必要数据。将评估分数阶乘设计的结果,以确定来自更有限的分数设计的真实数据量。使用方差分析计算主效应和交互效应。我们将展示如何确定实验设计的生成器 I。 http://rpubs.com/bokjh3/234088
Mike D. - 使用 FrF2 R 包,使用 2^(6-3) 分数阶乘设计分析了由三个热门子版块(r/science、r/politics、r/news)中顶级 Reddit 帖子组成的数据集。本次分析的目的是确定哪些因素(如果有)导致帖子点赞数与总票数百分比之间存在显著差异。为从数据集中进行采样开发了一种树状排序算法。在构建线性模型并进行方差分析后,发现没有一个主效应在统计学上是显著的。提供了基于模型假设和分数阶乘设计限制的解释,以及分数阶乘设计的别名结构和生成器的解释。[10]
Clare D. - 本实验考察了可能影响罪犯刑期长度的因素。超过 3,000 名在州立监狱和联邦监狱服刑的囚犯提供了个人和背景信息,这些信息与他们的刑期长度(以月为单位)一起收集。在本实验中,我们将使用 26-3 分数阶乘设计来估计四个因素对囚犯刑期的主要影响。其中两个因素是 3 水平因素,将分解为两个 2 水平因素。该设计有 8 个实验运行,我们能够从这些运行中估计响应变量刑期长度的初步模型。然后将该模型与对完整数据集进行方差分析检验的结果进行比较。[11]
Alexis Z. - 本实验研究了 2001 年北卡罗来纳州 1450 名新生儿的响应变量出生体重,该变量对应于四个因素。所讨论的因素是:婴儿的性别(2 个水平)、母亲是否吸烟(2 个水平)、孩子的种族(3 个水平)和妊娠周数(4 个水平)。该研究从探索性箱线图分析开始。接下来,进行了分数阶乘设计以研究 64 个运行中的数据;该设计进一步减少到 1/8 分数阶乘设计。计算了主效应,所有因素似乎都具有显著效应;然而,由于这是一个分辨率 III 设计,因此这些效应与交互作用是别名的。仍然建立了一个线性模型,并且该模型非常适合。最终,应该考虑包含 2fi 的模型,并且应该采用进一步的统计方法,因为并非所有设计运行都在数据集中表示。[12]
Trilce 在本报告中,我们评估了来自加州大都市区的空气质量数据,以评估社会经济和地理特征对这些地区空气污染的影响。开发了分数阶乘设计,并使用线性模型来估计各种协变量的影响。[13]
Yage Ding 本实验研究了蓝领工人的性别、肤色、年龄和工作年限对州失业率的影响。由于因素肤色和性别具有 2 个水平,因素年龄和工作年限具有 3 个水平。分数阶乘设计用于该实验的设计。首先将所有因素转换为 2 水平因素。然后,我们通过计算探索性主效应和使用原始数据集进行方差分析来确定设计的预期效应。尽管我们发现 2 个主效应和 1 个交互作用效应可能是显著的,但我们的有限资源不允许我们使用总共八个随机执行的实验运行来估计所有这些效应,以揭示这些因素和交互作用的影响。我们只能估计预期主效应,在本实验中,这些主效应与 2 因素交互作用效应是别名的。正如方差分析的结果所表明的那样,没有一个主效应能够解释州失业率的变化。用于进行实验的数据集来自 R 包“Ecdat”。[14]
Munira S 本实验展示了男性的健康状况、种族、居住地和婚姻状况对每小时工资的对数的影响。数据集是 R 中 Ecdat 包中的 Males 数据集。分数阶乘设计用于实验的设计。所有因素都转换为 2 水平因素。使用线性模型和方差分析确定了期望效应。本实验发现婚姻状况和居住地因素是显著的。[15]
Dede D 该食谱中分析的数据全面地描绘了美国人如何使用和支付医疗服务。数据集是 66 岁及以上个人的子样本(总共 4406 个观察值)。每个人都享有医疗保险。本实验的最终目标是构建一个具有最高分辨率的 2^m-3 分数阶乘设计。为了达到这个目标,需要执行以下步骤:(1)创建形式为 2^2 * 3^2 的全因子设计,(2)将 3 个水平转换为 2 个水平因素,形成 2^6 全因子设计,(3)将 2^6 全因子设计转换为 2^m-3 设计。使用别名,将确定此最终分数阶乘设计的别名结构。根据主效应,将构建一个线性模型,并使用方差分析对其进行检验。[16]
Liang Z 关于房产的话题在过去几十年里被研究人员详细分析过。许多因素会影响住房的价值,使研究更加复杂。在本项目中,我们分析了可能影响房屋价值的因素。我们在 Ecdat 中的住房数据集中应用分数阶乘设计 (FFD)。研究变量包括可能影响价格的两个 2 水平因素和两个 3 水平因素。分数阶乘设计用于执行此分析。我们设计了实验,将每个 3 水平因素划分为两个 2 水平因素。然后,我们分析主效应,并将结果与全因子设计进行比较。[17]
Benjamin B 该项目研究了汽车数据集,该数据集包含 93 个观察值。使用分数阶乘设计,它研究了哪些因素影响价格。有两个 2 水平因素和两个 3 水平因素,它们被分解为 2 水平因素。这些因素包括安全气囊、驱动方式、手动变速箱和产地。然后,它根据别名结构、me、ie 和方差分析分析结果。结果如预期,驱动方式、手动变速箱和产地对汽车价格的影响最大。[18]
Rajani D 本分析侧重于了解学生的不同属性如何影响他们的学校出勤率。数据集包含 2008 年葡萄牙 649 名学生的 30 个属性,但实验侧重于性别、课外活动参与度、酒精消费和上学时间。本研究使用 2^6-3 分数阶乘设计分析了这四个自变量对缺勤次数的影响。分析使用线性模型和方差分析,并考虑了别名结构。 http://rpubs.com/rajanideshpande/234410
Felipe O 使用收集到的数据来运行关于哪些因素影响衣服在洗涤后颜色变化的全因子实验,形成了分数阶乘实验。这些因素包括污垢类型、面料、洗涤温度以及洗涤剂是否为表面活性剂。将 3 水平因素转换为 2 水平因素,并从新的分数设计中获得结果。</ref>http://rpubs.com/ortizf2/234412</ref>
Shamus W 实验使用的是 Ecdat 包中的 Cars93 数据集。该数据集包含 93 个观测值,23 个变量,是 1993 年在美国销售的汽车属性的集合。本实验关注的是 4 个因素(两个 2 水平因素和两个 3 水平因素)对车辆价格的影响。观察到的因素包括安全气囊、驱动系统、变速箱类型和车辆原产地。本实验利用了混淆、主效应和交互效应以及方差分析的知识。[19]
Andreas V 实验数据集是 Ecdat 包中的“Fatality”,包含与交通事故死亡率相关的几个因素。我们在 2^(6-3) 分数析因设计中检查了 4 个因素,其中两个是 2 水平因素,两个是 3 水平因素。实验考察了混淆、主效应和交互效应,以及方差分析。FrF2 包用于混淆结构,方差分析提供了对主效应和次要效应的见解。[20]
Diana R 研究使用分数析因设计考察了青少年人群的抑郁指数。分析涉及四个因素:性别、每天吸烟、饮酒和吸毒水平。由此产生的分数析因设计是由一个分辨率为 III 的 2^(6-3) 设计组成,生成了 8 个运行。拟合的回归模型也被开发出来,方差分析结果表明性别人群之间以及高水平成瘾之间存在显著差异。[21]
Trevor C. 在此配方中,分析了来自 1974 年《汽车趋势》杂志的汽车设计和性能指标数据集。MPG 是一个响应变量,它依赖于包括气缸数量、汽车重量、V 型或直列发动机以及自动或手动变速箱等因素。有 32 个观察值。这些数据可以在 vincentarelbundock.github.io/Rdatasets/datasets.html 上找到。该实验使用了分辨率为 III 的分数析因设计,并且方差分析结果表明数据集中某些因素的显著性。[22]
Prasanna Date 研究了两个 2 水平因素(户主性别和家庭是否位于市区)和两个 3 水平因素(户主年龄和家庭规模)对越南家庭总家庭支出的影响。数据集来自 Ecdat 包。[23]
- ↑ Trevor Manzanares http://rpubs.com/manzat/42544
- ↑ http://rpubs.com/adamato/42650
- ↑ http://rpubs.com/Tothk2/Recipe8
- ↑ Brendan Howell http://rpubs.com/howelb/42796
- ↑ Wei Zou http://rpubs.com/serena049/46151
- ↑ http://rpubs.com/konraz/43258
- ↑ Ali Svoboda- http://rpubs.com/svoboa/44750
- ↑ Michael W- http://rpubs.com/mtwassick/232905
- ↑ Molly R - http://rpubs.com/molly_ren/doeproject3
- ↑ Mike D. - http://rpubs.com/deagem/reddit
- ↑ Clare D - http://rpubs.com/cadorsey/234395
- ↑ Alexis Z. - http://rpubs.com/ziemba/234397
- ↑ TE http://rpubs.com/trilcemarie/DoE_P03
- ↑ Yage Ding - http://rpubs.com/dingy2/232289
- ↑ Munira Shahir- http://rpubs.com/mjshahir/234401
- ↑ Dede Dolkar - http://rpubs.com/dededolkar/234405
- ↑ Liang Z http://rpubs.com/zhaol11/234349
- ↑ Benjamin B http://rpubs.com/byeonb/doeproject3_version01
- ↑ Shamus W http://rpubs.com/shamuswheeler/project3
- ↑ Andreas V http://rpubs.com/byeonb/234436
- ↑ Diana R. http://rpubs.com/dgramirez82/project3
- ↑ Trevor C. http://rpubs.com/trevorcorrao/234450
- ↑ Prasanna D. http://rpubs.com/prasanna_date/234882