跳转到内容

实验设计食谱/第 0 章:预备知识

来自维基教科书,开放书籍,开放世界

第 0 章:预备知识

0.1 实验设计简介 (Yage D, Felipe O)

每天当你进行观察或得出结论时,你都在从系统中获取信息。这可以是任何事情,从研究药物化学成分的影响到观察一位老妇人在公园里喂鸟面包屑。如果你更感兴趣,你可能会继续观察,并注意差异以及是什么导致了这些差异。例如,你可能注意到药物中某种化学物质比例的影响是负面的。或者鸟类的觅食量随着冬季临近而减少。在这两种情况下,你都观察到了系统中的变化,并将其归因于一个原因;现在你对系统有了更好的了解。你对影响系统的因素了解得越多,你对系统本身就了解得越多。

当你对系统的特定影响感兴趣时,你可以进行一个实验。以最简单的形式,实验就是改变系统的某个方面,并记录它对系统的影响。当你更多地了解这些因果关系时,你就可以开始建立理论和假设,并设计实验,从你的测试中获得准确的结果。这正是正确实验的重要性所在。为了获得有效的结果并得出正确的结论,实验必须以特定的目标为指导进行设计。实验的目标是找到自变量对因变量的影响,换句话说,就是找到因果关系及其大小。

我们都学习过科学方法形式的实验基础知识。也就是说,你有一个假设,它成为实验的二元条件。你要么证明假设是正确的,要么无法验证它。无论哪种情况,都会从系统中获得信息。传统上,最常见的实验方法之一是 OFAT(一次一个因素),简单来说,就是改变一个变量并测量它产生的影响。历史上,这种方法很普遍,许多著名的研究人员(如爱迪生)都使用过它。然后在第一次世界大战期间,罗纳德·费舍尔开发了一种新的分析方法。这种方法被称为方差分析 (ANOVA),简而言之,它是一种可以用来分析组均值差异的强大方法。该工具允许在实验中具有更大的灵活性,因为它能够一次测试多个零假设。这真正开启了实验设计以及结果分析的新篇章。在费舍尔之后不久,乔治·博克斯出现了,然后是田口。通过田口实验设计,根据因素和水平的数量,所需的实验次数可以显著减少。以下章节将进一步讨论为实验开发的工具和方法。

一般来说,有三种实验方法。优化(找到期望因变量的最佳自变量排列)、灵敏度分析(找到一个或多个因素对因变量的影响大小)和替代建模(当期望因素难以测量时)。在这本书中,我们将探索用于检验假设的统计实验设计的正确方法。将使用开源统计计算和图形软件 R 提供示例,以便读者可以在自己的工作中使用它们。

[SMD:很棒的开头!我喜欢列出 3 种实验类型。你能扩展这个介绍,谈谈从爱迪生到费舍尔到博克斯的实验历史吗?诚然,你还没有听说过博克斯,所以只留下一个标签以备后用。我对看看你对爱迪生和费舍尔的看法感兴趣,也许可以从你的阅读材料中获得一些见解。]

实验有 3 个组成部分:因素、水平和响应。这些是我们日常生活中可能使用的术语,但在实验设计中,它们有特定的含义。正如牛津美国新词典所定义的,“因素”是“导致结果或结果的某个情况、事实或影响”,这正是它在实验中的含义:一个因素发生变化以影响结果。实验中的结果被称为“响应”,因素的变化被称为“水平”。因此,当一个因素从一个水平到另一个水平变化时,实验中的实验单位应该对因素的每个水平产生特定的响应。前一句中出现了一个新词“实验单位”,它是用来测试特定实验条件的对象。让我们举一个简单的例子。一位农民想知道他的新作物类型需要多少灌溉才能产生最高的产量。他决定种植多英亩这种新的作物类型,并给每英亩提供不同的灌溉量,并在作物成熟后测量每英亩的产量。在这个例子中,由于灌溉量从一英亩到另一英亩发生变化,所以它是因素,不同的灌溉量是该因素的水平。响应,换句话说,实验单位(作物类型)的结果,当然是产量。现在我们知道了实验的组成部分,我们可以开始设计实验。实验设计有 3 个基本原则:随机化、重复和区组,其中随机化还包括 3 个方面:随机选择、随机分配和随机运行顺序。随机选择是指应该从总体中随机选择实验单位。使用农民的例子,如果农民总是使用来自 1 家公司的作物种子,那么来自该公司的作物种子应该是总体,并且应该从总体中随机选择实验单位,这意味着他应该跨批次选择,而不是使用来自同一批次的种子作为实验单位。在随机选择实验单位后,我们应该随机地将处理分配给它们。这里的新术语“处理”只是因素水平的另一个名称。在随机处理分配后,我们终于可以运行实验了,当然,以随机顺序运行。通过随机化,我们最大限度地减少了系统误差,并确保了我们在因素和响应之间可能得出的推论的有效性。第二个基本原则是重复,它是将相同处理应用于多个样本的过程。在我们的产量-灌溉示例中,如果农民对多英亩作物施以相同的灌溉量,那么这些英亩作物就被称为“重复”。进行重复可以让我们更准确地了解观察数据,因为我们可以从重复之间的差异来估计实验误差,从而估计误差引起的变异。如果误差引起的变异小于处理变化引起的变异,那么我们可以得出因素和响应之间的推论。第三个原则是区组。在一个实验中,有受控因素,即我们感兴趣的因素,以及其他不感兴趣但确实会影响实验单位响应的因素,这些因素被称为“干扰因素”。这些因素通常在实验中进行区组,我们通过保持每个单位上除了感兴趣因素之外的所有实验条件相同来实现这一点。通过对干扰因素进行区组,我们可以观察到在不受干扰因素干扰的情况下,感兴趣因素和响应之间更精确的关系。有了确保我们从实验中可能得出的结论的准确性和精度的 3 个基本原则,我们还根据实验策略设计实验,这些策略是计划实验的 3 种常用方法:最佳猜测法、一次一个因素 (OFAT) 和析因设计。我们将在本章的以下部分讨论这些内容。


0.2 最佳猜测实验设计 (Diana R, Molly R)

也许最基本的实验设计方法是最佳猜测法。这种策略完全是字面意思:实验者对他们认为的实验因素的最佳组合进行“最佳猜测”。虽然这是一种非正式的策略,但它经常被使用,而且成功率往往高于预期。这是因为进行实验的人经常会做出经过深思熟虑的猜测,这些猜测是基于他们对所考察因素的先验知识。

然而,这种方法并非没有缺点。当使用最佳猜测来寻找最佳解决方案时,会有两种可能的结果:结果要么是可接受的,要么不可接受。如果结果显然不可接受,那么实验者该如何做?他们的第二好猜测?这可能会持续很长时间,并且可能永远不会得到最佳解决方案。但是,如果最佳猜测实验的结果是令人满意的呢?实验者应该停止在那里,还是继续实验?无法保证令人满意的解决方案是最佳解决方案。最佳猜测实验设计是一个很好的起点,但对于更复杂的实验来说显然不是理想的策略。

咖啡行业展示了最佳猜测方法如何在现实世界中得到应用。市场上可能提供不同品种的咖啡(不同地区),而这些品种中又会有不同的烘焙类型。确实存在不确定性,无法确定这些组合中的哪一个将提供最佳销量。假设在哥伦比亚国家的一些地区提供了最好的咖啡品种(安蒂奥基亚、亚美尼亚、桑坦德、乌伊拉、纳里尼奥和塞拉内华达),以及四种不同的烘焙类型(浅烘焙、中烘焙、中深烘焙和深烘焙)。如果公司想要获得最大的销量,最合乎逻辑的方法是尝试所有不同的组合,并生产每种类型咖啡的批次。然而,生产和销售所有这些咖啡可能在经济上不可行,因此最佳猜测可能是最好的方法。根据对该国咖啡的国际评级,哥伦比亚的某些地区在世界各地的咖啡品尝比赛中获得了第一名。乌伊拉就是其中一个地区,众所周知,中烘焙是这种豆子的最佳烘焙类型。此外,进一步的市场调查表明,许多欧洲国家、加拿大和美国的一些地区需要有机咖啡。由于塞拉内华达地区生产该地区最好的有机咖啡之一,因此也可以提供这种咖啡。由于这种豆子需要更高的醇厚度,深烘焙似乎是最佳选择。这种最佳猜测方法使用“最大销量”作为响应变量,以及 (i) 咖啡品种和 (ii) 烘焙类型作为因素。同样,最佳猜测方法可以为问题提供解决方案,尽管最好使用更明确的策略来确保找到最佳解决方案。</nowiki>

0.3 一次一个因素 (OFAT) 实验设计 (Munira S, Fabiana T)

一次一个因素 (OFAT) 实验设计是一种实验设计,其中每次实验只改变一个因素,而其他因素保持不变。

方法

  1. 从你的初始值开始。一种可能是从最佳猜测开始。
  2. 在所考虑的因素中,选择一个因素 x。
  3. 在保持其他因素不变的情况下,运行具有不同 x 水平的实验,以优化响应变量。
  4. 将因素 x 设置为优化响应变量的水平。
  5. 选择一个与因素 x 不相关的因素 y。
  6. 重复这种方法,直到所有因素都用完,每次都选择一个与之前变化的因素不相关的因素。

例如,假设我们想要通过改变肥料类型(A 或 B)和蔬菜类型(胡萝卜或茄子)来优化种植产量。从胡萝卜开始,假设我们使用肥料 A 获得了更好的产量,所以我们保留肥料 A 并改变蔬菜类型,得到茄子产量低于胡萝卜的产量。在这种情况下,我们会选择胡萝卜-肥料 A 的组合作为更好的选择。

优点 - 在数据容易获取的情况下,例如获取数据的成本低、运行实验的时间短或数据可用性高,OFAT 是一种很好的方法。在目标是改善现有系统的场合,它也具有优势。此外,由于 OFAT 不考虑因素之间的交互效应,因此在因素之间没有关联的实验中,它应该是一种合适的方法。

缺点 - 在数据难以获取的情况下,一次改变多个因素更有效率,因此 OFAT 不是一个好的选择。当实验运行特别昂贵或耗时时,这种观察结果也适用。然而,OFAT 方法的主要局限性在于它无法考虑因素之间的交互效应,因此在存在交互效应的实验中很容易失效。此外,OFAT 实验可能会错过因素的最优值,而这些最优值可以通过析因设计实验来揭示。例如,考虑到之前描述的种植示例,如果茄子和肥料 B 的组合比选择的组合(胡萝卜和肥料 A)具有更高的产量,我们就会错过最佳解决方案,而该解决方案可以通过析因设计实验来揭示。

[SMD: 你有一个很好的例子,但是你可以添加一些其他的因素级别,以便你可以展示多次更改级别?请考虑我们在第一天课堂上回顾过的杂货架示例。请重新思考你上面的缺点。我认为 OFAT 的一个真正的缺点是完成一个实验所需的时间或实验运行次数,即使那样,你可能也无法获得最佳值。]


0.4 析因设计(Kaan U, Michael W)

析因设计是指观察响应(因变量)变化的实验方法,其中两个或多个因素的所有可能组合都在独特的随机化运行中进行测试,而不是只在一个预定的顺序中一次改变一个因素。这种方法是由 RA Fisher 在 1920 年代开创的,它极大地改变了实验设计的方法。


因素是一个独立的分类变量,因素的不同值被称为水平。它们既可以是定量的,也可以是定性的,尽管大多数只是与实验中涉及的处理或参数相关的单个单词或数字。连续变量通常不是因素,但响应变量通常是连续的。


如果我们将析因设计与之前解释的方法进行比较,优点可以列出如下

  • 析因设计使实验者能够确保他们找到了组合的全局最优,而不是局部最优,这是之前讨论的 OFAT 或最佳猜测实验设计方法的主要风险。
  • 与 OFAT 实验设计方法相比,另一个优势是,每个因素在每个实验中都被检查多次,这节省了资源并提高了模型的精度。
  • 最后,这种设计方法可以避免实验结果因研究人员的预期而产生混淆。


0.4.1 结构/设计组合

在一般的(每个因素的水平相同)析因实验中,实验运行的总数或另一个说法是处理次数可以通过计算 n^m 来计算,其中 n 是每个因素的水平数,m 是因素数。在一个实验中,每个因素的水平数不相同,运行的总数由方程 n*m*k*p… 给出,其中每个变量是其相应因素的水平数。

根据组合的覆盖范围,析因设计有两种类型 

  • 如果实验考虑所有因素水平的所有可能组合,则将其定义为完全析因设计
  • 但是,由于成本过高或组合数量过多,只能测试一小部分组合,这被定义为部分析因设计


0.4.2 如何解释实验结果? 

析因设计的結果可以用於計算因素對響應變數的效應(me)和多個因素共同作用產生效應的結果,即交互效應。一个因素的主效应可以计算为该因素所有水平之间的平均差异。交互效应是通过对因素进行平均来计算的(在因素之间对结果进行对角平均,例如从因素 A 水平 1 到因素 B 水平 2,或从因素 A 水平 2 到因素 B 水平 1)。

主效应和交互效应彼此独立(正交)。这意味着在某些情况下可能不存在主效应,但存在一些交互效应,或者反之,可能存在主效应,但不存在交互效应。交互作用可以在所有变量之间发生,因此在一个具有因素 A - B - C 的析因设计中,可能的交互作用是 A+B、A+C、B+C 和 A+B+C。

为了确定析因实验结果的统计显著性,可以进行方差分析。这将表明显著性可能是偶然的,也可能不是偶然的。这使研究人员能够接受零假设:因素没有统计显著的主效应或交互效应,或拒绝零假设,并说因素对响应变量有统计显著的主效应或交互效应。


0.4.3 例子

从上一节中描述的实验设计继续,假设有三种类型的肥料(A、B 和 C)和三种类型的蔬菜(茄子、胡萝卜和辣椒)。

每个实验组合都将被放在地块中,以便对每个因素水平进行全面比较。土地地块可以像下面所示那样随机划分

茄子 + A 胡萝卜 + B 茄子 + C
胡萝卜 + C 辣椒 + A 辣椒 + B
辣椒 + C 茄子 + B 胡萝卜 + A

所有作物都将受到平等的处理,然后从每个子地块中收集数据。数据完成后,可以比较所有因素组合,以确定哪个具有最佳产量。这个过程确保通过测试所有因素组合来找到最优值。


0.5 实验设计的设置、设计和分析范式

在设计实验时,有一个框架可以帮助我们思考手头的问题。本文采用的是设置-设计-分析范式,该范式来自 [?]。

  1. 设置(问题)
  2. 设计(实验)
  3. 分析(实验)
    1. 探索性分析
    2. (零假设统计)检验
    3. 估计(参数)
    4. 模型充分性检验

步骤 I: 设置

要求:对正在研究的问题、想法、论点的描述

结果:要提出的问题、以非数学术语表达的零假设陈述、以及正在测试和/或控制的因素的数量和类型

步骤 II: 设计

要求:要提出的问题、以非数学术语表达的零假设陈述、正在测试和/或控制的因素的数量和类型

结果:实验的设计

分析阶段和食谱大纲

要求:实验设计、运行实验后的结果

结果:一份报告,由以下四个部分组成

    1. 探索性分析
    2. 检验
    3. 估计(参数)
    4. 模型充分性检验
华夏公益教科书