跳转到内容

一般工程学导论/误差分析/统计分析

来自维基教科书,开放世界中的开放书籍

有两种方法可以测量某事物

  • 测量一次值,最大值和最小值(参见测量误差
  • 多次测量值并使用统计方法计算最大值和最小值

随机误差假设

[编辑 | 编辑源代码]

在以下两种情况下,多次测量某事物以减少随机误差是合适的

  • 在项目开始时,结果非常混乱,无法判断是改善、保持不变还是恶化。
  • 在项目结束时,试图提高准确性,可以清楚地看到不确定性的影响。

高年级和研究生课程侧重于如何在项目结束时使用统计学。这里旨在介绍在项目开始时使用的统计学。

平均概念

[编辑 | 编辑源代码]
  • 众数 -- 序列 1,1,2,4,7 的众数是 1。它出现的频率最高... 不受极值的影响
  • 中位数 -- 列出所有数据,中间数字是中位数,不受极值的影响
  • 平均数 -- 序列的平均数,平均值 1,1,2,4,7 是 3。... 受极值的影响

离群值

[编辑 | 编辑源代码]

离群值 是极值。它们会扭曲平均值的计算。没有关于什么构成离群值的严格数学定义。确定观察值是否为离群值最终是一个主观练习。超过三个标准差的离群值需要合理化。合理化可能导致这些测量结果被丢弃。

均值计算

[编辑 | 编辑源代码]

算术平均数 是“标准”平均数,通常简称为“平均数”。

例如,五个值的算术平均数:4, 36, 45, 50, 75 是

正态分布

[编辑 | 编辑源代码]
红线是正态分布,其他颜色不是

实验中的观测误差通常假设服从正态分布,不确定性的传播是使用这个假设计算的。

如果数据是真正随机的,那么当 X 的值为 0 或 μ = 0 且标准差或 σ 2 = 1 时,它就是右侧图形中的红线。

观测误差可能是由于人为错误,导致化学物质混合量略有不同;或者使用物理设备,例如会根据刻度线头部随机位置提供不同值的尺子;或者在不同的时间和风力条件下从数字温度计记录相同数字。

显然,大多数事物不是随机的,但它们足够随机,以至于这是一个对误差的良好、一级近似。它是理解误差和不确定性计算的良好起点。

标准差

[编辑 | 编辑源代码]
两个飞镖游戏,一个比另一个更准确,但平均值相同

看看两个飞镖游戏的結果。它们的平均值都相同(板子的中心)。但很明显,一个飞镖游戏比另一个更接近中心。我们如何量化这一点?标准差 (σ) 量化了这一点。

这里的目标是提供标准差的直观定义。因此,让我们从观察两个数字序列开始

  • 1,1,2,4,7
  • 2,2,3,3,5

两者都具有。显然,第二个序列更接近平均值。第一个的偏差必须大于第二个的偏差。但是,将与中位数的偏差相加并找到该平均值并不奏效

这两个序列与平均值的偏差都是 0。 这是行不通的,因为负数抵消了正数。那么如何将负数变成正数呢? 将其平方然后开平方。或者取绝对值

现在我们可以看到成功了。第一个序列 1,1,2,4,7 的平均偏差比第二个序列 2,2,3,3,5 大。 一般来说,平均偏差可以写成

"标准差" 应该改为 "均方根偏差"。它用平方代替了绝对值符号,然后对平方值和样本数量都开平方。 这使得 "标准差" 变大(2 变为 2.1,0.8 变为 1.2)。 这倾向于强调微小的差异,并且比 "平均偏差" 更受欢迎。

这种技术(强调微小的差异)的问题是,它只在对地球上所有事物进行采样时或实验无限次进行时才有效。 导致贝塞尔校正的问题是

上面的公式通常在电子表格和计算机代数软件中使用,因为大多数情况下工程师和科学家是在对可能性样本进行统计,而不是对所有可能性进行统计。

解释标准差

[edit | edit source]

在大多数情况下,较小的标准差或误差是好的。以下是一些以使偏差变大为目标的案例

  • 寓言(每个人都听相同的东西,但解释不同)
  • 吉他失真
  • 将信号移到通道(像吉他一样失真,然后滤除除一小部分之外的所有内容,然后放大到通道)
  • 重新平衡 B 树(将数据分散,以便可以快速添加新数据)
  • 反应中存在多个平衡点,而不是一个平衡点
华夏公益教科书