一般工程学导论/误差分析/统计分析
有两种方法可以测量某事物
- 测量一次值,最大值和最小值(参见测量误差)
- 多次测量值并使用统计方法计算最大值和最小值
在以下两种情况下,多次测量某事物以减少随机误差是合适的
- 在项目开始时,结果非常混乱,无法判断是改善、保持不变还是恶化。
- 在项目结束时,试图提高准确性,可以清楚地看到不确定性的影响。
高年级和研究生课程侧重于如何在项目结束时使用统计学。这里旨在介绍在项目开始时使用的统计学。
- 众数 -- 序列 1,1,2,4,7 的众数是 1。它出现的频率最高... 不受极值的影响
- 中位数 -- 列出所有数据,中间数字是中位数,不受极值的影响
- 平均数 -- 序列的平均数,平均值 1,1,2,4,7 是 3。... 受极值的影响
离群值 是极值。它们会扭曲平均值的计算。没有关于什么构成离群值的严格数学定义。确定观察值是否为离群值最终是一个主观练习。超过三个标准差的离群值需要合理化。合理化可能导致这些测量结果被丢弃。
算术平均数 是“标准”平均数,通常简称为“平均数”。
例如,五个值的算术平均数:4, 36, 45, 50, 75 是
实验中的观测误差通常假设服从正态分布,不确定性的传播是使用这个假设计算的。
如果数据是真正随机的,那么当 X 的值为 0 或 μ = 0 且标准差或 σ 2 = 1 时,它就是右侧图形中的红线。
观测误差可能是由于人为错误,导致化学物质混合量略有不同;或者使用物理设备,例如会根据刻度线头部随机位置提供不同值的尺子;或者在不同的时间和风力条件下从数字温度计记录相同数字。
显然,大多数事物不是随机的,但它们足够随机,以至于这是一个对误差的良好、一级近似。它是理解误差和不确定性计算的良好起点。
看看两个飞镖游戏的結果。它们的平均值都相同(板子的中心)。但很明显,一个飞镖游戏比另一个更接近中心。我们如何量化这一点?标准差 (σ) 量化了这一点。
这里的目标是提供标准差的直观定义。因此,让我们从观察两个数字序列开始
- 1,1,2,4,7
- 2,2,3,3,5
两者都具有。显然,第二个序列更接近平均值。第一个的偏差必须大于第二个的偏差。但是,将与中位数的偏差相加并找到该平均值并不奏效
这两个序列与平均值的偏差都是 0。 这是行不通的,因为负数抵消了正数。那么如何将负数变成正数呢? 将其平方然后开平方。或者取绝对值
现在我们可以看到成功了。第一个序列 1,1,2,4,7 的平均偏差比第二个序列 2,2,3,3,5 大。 一般来说,平均偏差可以写成
"标准差" 应该改为 "均方根偏差"。它用平方代替了绝对值符号,然后对平方值和样本数量都开平方。 这使得 "标准差" 变大(2 变为 2.1,0.8 变为 1.2)。 这倾向于强调微小的差异,并且比 "平均偏差" 更受欢迎。
这种技术(强调微小的差异)的问题是,它只在对地球上所有事物进行采样时或实验无限次进行时才有效。 导致贝塞尔校正的问题是
上面的公式通常在电子表格和计算机代数软件中使用,因为大多数情况下工程师和科学家是在对可能性样本进行统计,而不是对所有可能性进行统计。
解释标准差
[edit | edit source]在大多数情况下,较小的标准差或误差是好的。以下是一些以使偏差变大为目标的案例
- 寓言(每个人都听相同的东西,但解释不同)
- 吉他失真
- 将信号移到通道(像吉他一样失真,然后滤除除一小部分之外的所有内容,然后放大到通道)
- 重新平衡 B 树(将数据分散,以便可以快速添加新数据)
- 反应中存在多个平衡点,而不是一个平衡点