计算机系统工程/可靠性模型

什么是系统？

定义

系统是由多个元素组合在一起形成的整体。

示例

河流或交通系统
货币系统
特定领域中的事实、原则和学说的综合集合
标记、编号、测量等的系统
南卡罗来纳大学 - 由哥伦比亚的主校区和许多分校组成
计算机（我们的主要兴趣） - 包括组件：内存、处理器、主板、磁盘、打印机、无线适配器等。

并非每个集合都是一个系统。为了成为一个系统，一个集合需要具有一定的统一性，其组件之间具有功能关系，或者具有某种有用的目的。例如，房间里的一组随机物品，除非满足上述条件之一，否则不会构成一个系统。

系统的元素如下

组件：用于输入处理或输出的操作部件
属性：组件的特性，这些特性描述了系统
关系：组件和属性之间的联系

组件是相互关联的，并协同工作以实现某种目的、目标或功能。每个组件的特性和行为都会影响整个系统的特性。例如，计算机内存的速度、磁盘访问时间和容量都会影响计算机的整体速度。每个组件的特性都依赖于至少一个其他组件。例如，内存性能取决于总线速度（带宽）。每个组件的子集（或子系统）都以相同的方式相互关联，但系统不能被分成独立的子集。

通常，系统具有组件层次结构。一个系统由组件组成，而这些组件又由更小的组件组成。较低的层次结构称为子系统。一个例子是硬盘驱动器。驱动器是计算机的一个组件，但它具有多个磁盘、读写头、缓冲区以及许多其他更小的组件。

系统可以分类为

自然和人造（人造）
物理和概念
静态和动态
封闭和开放

工程学关注的是为了造福人类而对有限资源的经济利用。这是通过考虑以下几个方面来解决问题的。在系统工程领域，必须定义与真实客户需求相关的产品和系统需求。例如，设计满足客户通信需求的电子邮件系统，必须很好地定义以满足这些需求。工程学还必须解决整个系统，包括所有元素，并从生命周期角度出发。必须考虑整个层次结构，包括各个层次之间的交互以及同一层次上的各个元素之间的交互。计算机系统中这方面的示例是内存层次结构，由二级缓存、主内存和硬盘上的虚拟内存组成。通常需要将各种相关学科在一个及时且同步的方式中组织成一项工程工作，例如系统的机械和电气方面的不同方面。最后，建立对过程的规范化方法（管理过程以获得结果）至关重要。这包括适当的审查、评估和反馈，以确保有序和高效的进展。

系统的生命周期由以下组成

以下是对该过程应用示例：第三世界国家的独裁者通常想乘坐豪华汽车。然而，这种喜好并不得到太多支持。加油站并不普遍，经济可能无法支持许多接受过汽车维修培训的技工。因此，从工程学的角度来看，这个系统将需要更多的设计和资金才能变得可行。

系统工程概述

自顶向下：将系统作为一个整体来看
以生命周期为导向

1. Design, development production/construction, distribution, operation, maintenance &
support, retirement, phaseout, disposal
2. Past emphasis on design & acquisition, with little emphasis on production, operation,
maintenance, support & disposal
3. Example: If an old computer goes to a landfill (taking up space and polluting the
groundwater), a better design would allow the recovery of gold, lead, and other materials
upon disposal.

更好地定义系统需求 - 将客户需求追溯到各个组件
跨学科

1. Systems usually require multiple disciplines
2. Example: In the development of a computer game, a company has 3 employees – an artist,
a musician, & a programmer.

可靠性

定义

“Reliability is the probability of a device performing adequately for the period of time intended under the operating conditions encountered.” – NASA

系统可靠性的数学模型

Reliability, R(t), is the probability of a system not failing during the period [0,t].

实验

测试大量系统。

危险函数，h(t)

分离变量并积分

摘要 F(t) 是失效分布函数 R(t) = 1-F(t) 是可靠性 f(t) 是失效密度函数 h(t) 是危险函数

f(t) 和 h(t) 的区别

在 2 到 3 时刻

危险函数

危险函数的形状表明了物品如何老化。它有一个直观的解释，即物品在时刻 t 所承受的风险量

递增危险函数 这可能是最可能的情况，因为物品会随着时间的推移而磨损或退化。例如，看看会经历磨损或疲劳的机械物品，例如随着时间的推移，汽车轮胎上的橡胶会变薄。

递减危险函数 在这种情况下，物品会得到改善；也就是说，物品随着时间的推移不太可能失效。例如，一些金属通过持续使用而“硬化”。此外，随着错误的修复，软件可能会得到改善。

浴缸型失效率 这种情况描述了许多自然系统和制成品。它是三种效应的综合

*early failures due to defects
*late failures due to wear out
*accidents at a constant rate

人类生命特征

MTTF = 800 年对应于失效率

或 1 年内 4000 人中 5 人死亡

指数可靠性分布

回顾

这种分布是最常用的可靠性模型。它对许多电子元件在其大部分寿命中有效，并且是 MIL-HDBK-217 的基础。

无记忆特性

令 T = 物品寿命（随机变量）

这是物品在存活到时刻 s 后失效分布的条件概率，与全新的物品相同。

一个例子是保险丝。保险丝因电源浪涌而失效，但不会随着时间的推移而减弱或退化。无记忆特性及其“用后如新”的假设在适用性上受到限制。为了简单起见，指数分布很容易被误用

*statistical techniques are particularly tractable
*can add failure rates  
*field data often allow an estimation of only this one-parameter distribution

C 提供了对数据集进行指数性快速检查

威布尔分布

瑞典物理学家沃洛迪·威布尔在 1939 年引入了这种分布。它是指数分布的推广，适用于对具有恒定、严格递增和严格递减危险函数的寿命进行建模。

请注意，威布尔分布可以匹配浴缸曲线的不同阶段。

程序： 1. 收集失效数据。2. 将数据对威布尔分布进行最佳拟合

如果物品仍在磨合期

*Improve supplier quality
*Burn in the system longer
*Be more careful while manufacturing

在通用电气，灯泡的灯丝即使只有 1% 的差异也会导致寿命缩短 25%。

如果归因于随机失效（事故）

*Make stronger components
*Derate – use components at less than the rated value
*Use newer technology (i.e. software control, longer-life transistors instead of vacuum tubes, etc.)
*Make components less environmentally sensitive (i.e. better packaging)
*NPN transistors <   PNP transistors

例如，卤素灯和紧凑型荧光灯使用不同的技术来延长寿命。此外，白炽长寿命灯泡的额定功率可能如下进行

如果物品处于磨损区域

*Use stronger, longer-lived components
*Use newer technology, etc.
*Use a different architecture

系统可靠性度量

平均故障间隔时间 (MTTF) 这意味着只有大约 37% 的物品在超过 1 个 MTTF 后存活。但是，这种分布有一个非常长的尾部

可修复系统

平均维修时间 (MTTR)

平均故障间隔时间 (MTBF)

请注意，MTBF 和 MTTF 通常被一些作者几乎互换使用。

稳态可用性

例如，如果一个系统在两年内只有 15 分钟的停机时间，那么

可靠性模型

对于串联系统

如果 A 工作且 B 工作且 C 工作且 D 工作，则系统工作。

例如，如果

在时间方面，

假设

观察到，对于恒定失效率（指数）模型，可以使用威布尔分布

但这要困难得多。

冗余

非常简单
非常有吸引力
非常具有欺骗性

元件可靠性 = 0.9

如果任何一个元件工作，系统就工作，如果两个元件都失效，系统就失效。R = 1-P(fail)

   = 1-P(first fails & second fails)
   = 1-P(first fails)P(second fails)
   = 1-P(.1)(.1)			 note independence
   = .99

示例：灯泡

串联系统

并联系统

冗余的用途

为了提高可靠性、可用性
消除单点故障

Important in military systems
Becoming important in commercial systems
Important in high availability systems in which the part being repaired must be shut down