一般工程学导论/误差分析/统计分析

有两种方法可以测量某事物

测量一次值，最大值和最小值（参见测量误差）
多次测量值并使用统计方法计算最大值和最小值

随机误差假设

在以下两种情况下，多次测量某事物以减少随机误差是合适的

在项目开始时，结果非常混乱，无法判断是改善、保持不变还是恶化。
在项目结束时，试图提高准确性，可以清楚地看到不确定性的影响。

高年级和研究生课程侧重于如何在项目结束时使用统计学。这里旨在介绍在项目开始时使用的统计学。

平均概念

众数 -- 序列 1,1,2,4,7 的众数是 1。它出现的频率最高... 不受极值的影响
中位数 -- 列出所有数据，中间数字是中位数，不受极值的影响
平均数 -- 序列的平均数，平均值 1,1,2,4,7 是 3。... 受极值的影响

离群值

离群值是极值。它们会扭曲平均值的计算。没有关于什么构成离群值的严格数学定义。确定观察值是否为离群值最终是一个主观练习。超过三个标准差的离群值需要合理化。合理化可能导致这些测量结果被丢弃。

均值计算

算术平均数 是“标准”平均数，通常简称为“平均数”。

{\bar {x}}={\frac {1}{n}}\cdot \sum _{i=1}^{n}{x_{i}}

例如，五个值的算术平均数：4, 36, 45, 50, 75 是

{\frac {4+36+45+50+75}{5}}={\frac {210}{5}}=42.

正态分布

实验中的观测误差通常假设服从正态分布，不确定性的传播是使用这个假设计算的。

如果数据是真正随机的，那么当 X 的值为 0 或 μ = 0 且标准差或 σ² = 1 时，它就是右侧图形中的红线。

观测误差可能是由于人为错误，导致化学物质混合量略有不同；或者使用物理设备，例如会根据刻度线头部随机位置提供不同值的尺子；或者在不同的时间和风力条件下从数字温度计记录相同数字。

显然，大多数事物不是随机的，但它们足够随机，以至于这是一个对误差的良好、一级近似。它是理解误差和不确定性计算的良好起点。

标准差

看看两个飞镖游戏的結果。它们的平均值都相同（板子的中心）。但很明显，一个飞镖游戏比另一个更接近中心。我们如何量化这一点？标准差 (σ) 量化了这一点。

这里的目标是提供标准差的直观定义。因此，让我们从观察两个数字序列开始

1,1,2,4,7
2,2,3,3,5

两者都具有 ${\bar {x}}=3$ 。显然，第二个序列更接近平均值。第一个的偏差必须大于第二个的偏差。但是，将与中位数的偏差相加并找到该平均值并不奏效

$1/5*\sum _{k=1}^{5}({\bar {x}}-x_{i})=1/5*((1-3)+(1-3)+(2-3)+(4-3)+(7-3))=0$ $1/5*\sum _{k=1}^{5}({\bar {x}}-x_{i})=1/5*((2-3)+(2-3)+(3-3)+(3-3)+(5-3))=0$

这两个序列与平均值的偏差都是 0。这是行不通的，因为负数抵消了正数。那么如何将负数变成正数呢？将其平方然后开平方。或者取绝对值

$1/5*\sum _{k=1}^{5}|({\bar {x}}-x_{i})|=1/5*(|1-3|+|1-3|+|2-3|+|4-3|+|7-3|)=10/5=2$

$1/5*\sum _{k=1}^{5}|({\bar {x}}-x_{i})|=1/5*(|2-3|+|2-3|+|3-3|+|3-3|+|5-3|)=4/5=0.8$

现在我们可以看到成功了。第一个序列 1,1,2,4,7 的平均偏差比第二个序列 2,2,3,3,5 大。一般来说，平均偏差可以写成

{\frac {1}{n}}\sum _{i=1}^{n}|{\bar {x}}-x_{i}|.

"标准差" 应该改为 "均方根偏差"。它用平方代替了绝对值符号，然后对平方值和样本数量都开平方。这使得 "标准差" 变大（2 变为 2.1，0.8 变为 1.2）。这倾向于强调微小的差异，并且比 "平均偏差" 更受欢迎。

{\sqrt {{\frac {1}{n}}\sum _{i=1}^{n}({\bar {x}}-x_{i})^{2}}}.

这种技术（强调微小的差异）的问题是，它只在对地球上所有事物进行采样时或实验无限次进行时才有效。导致贝塞尔校正的问题是

{\sqrt {{\frac {1}{n-1}}\sum _{i=1}^{n}({\bar {x}}-x_{i})^{2}}}.

上面的公式通常在电子表格和计算机代数软件中使用，因为大多数情况下工程师和科学家是在对可能性样本进行统计，而不是对所有可能性进行统计。

解释标准差

在大多数情况下，较小的标准差或误差是好的。以下是一些以使偏差变大为目标的案例

寓言（每个人都听相同的东西，但解释不同）
吉他失真
将信号移到通道（像吉他一样失真，然后滤除除一小部分之外的所有内容，然后放大到通道）
重新平衡 B 树（将数据分散，以便可以快速添加新数据）
反应中存在多个平衡点，而不是一个平衡点