计算机系统工程/泊松过程
- 以西美昂-德尼·泊松 (1781–1840) 命名
- 描述一个“完全随机的过程”
示例 - 放射性物质的衰变
- 如果事件是由许多独立的动作引起的,通常效果很好(通常 4 或 5 次可以给出很好的近似值)
事件之间的平均时间
区间内事件的平均数量
无记忆性(非常重要)
s 内没有事件;找到下一个事件在 t 内发生的概率
记住:不重叠的时间间隔是独立的!
一个时间间隔就像任何其他时间间隔一样,这会导致悖论。如果我们要随机选择一个点,则该点更有可能落在较大的间隔内,而不是落在较小的间隔内(较大的间隔在直线上占据更多空间)。
对于泊松到达,如果我们随机选择一个区间,它将(平均)是平均区间的两倍。
事件均匀分布
对于泊松过程,事件之间的时间服从指数分布。其密度函数为通过分部积分可以找到事件之间的预期时间
事件间隔时间的方差可以类似地计算。它是
因此,其标准差为
其变异系数为
coefficient of variation =
再次对小 h 进行泰勒级数展开得到
h 内发生超过 1 个事件的概率为
这证明了泊松过程的性质 (ii)、(iii) 和 (iv) 的等价性。
指数事件间隔时间分布意味着区间内事件数量服从泊松分布,这可以通过与证明 (iv) 蕴含 (ii) 几乎相同的方式直接证明。
考虑一个区间 T
再次
T 中恰好发生一个事件的概率是在所有可能的 y 值下,事件在 y 处发生且在区间 (T—y) 中没有事件发生的总概率。
T 中恰好发生两个事件的概率是在所有可能的 y 值下,事件在 y 处发生且在区间 (T—y) 中发生一个事件的总概率。
一般来说
.
长度为 T 的区间内发生的事件的预期数量为
结果并不意外,但证实了泊松过程(或等效地指数分布)的参数是平均事件率。
假设自上次事件发生以来已经过去了时间 s,下一个事件发生之前的时间大于 t 的概率是多少?这与询问事件之间的时间 X 大于 s + t 的概率相同,前提是它大于 s。
因此,代入得到
这是泊松过程众所周知的无记忆性。直到下一个事件的时间分布与自上次事件发生以来已经过去了多少时间无关,并且直到下一个事件的平均时间与平均事件间隔时间相同。此属性也是泊松过程完全随机性的直接结果;区间 t 中发生的事情与区间 s 中发生的事情无关。
泊松过程的无记忆性会导致一个有趣的悖论。假设我们有一个泊松过程并选择一个任意时间 t’。直到下一个事件的平均时间为,并且向后看,自上次事件以来的平均时间也为。因此,这两个事件之间的平均时间必须为。但平均事件间隔时间为。可以通过注意到时间 t’更有可能落在较大的事件间隔内而不是较小的事件间隔内来解决该悖论。事实上,包含 t’ 的事件间隔的预期大小将是平均值的的两倍。
为了说明此悖论的结果,假设计算机系统中对磁盘 I/O 操作的请求呈指数分布。我们通过读取时钟并在每次读取或写入后将其重置为零来测量请求之间的时间。如果我们尝试通过选择某个任意时间 t’,然后在下一个 I/O 操作时读取时钟来对该过程进行采样,则样本的平均值将是 I/O 操作之间平均时间的两倍。为了正确地对该过程进行采样,我们需要选择一个任意时间,然后对下一个两个 I/O 操作之间的时间进行采样。
如果我们有一个长度为 t 的区间并且在 t 期间发生了一个事件,那么该事件发生在长度为 s 的子区间内的概率是多少?
这与询问(其中 X 是从区间开始到事件发生的时间)在 t 期间恰好发生一个事件的条件下的概率相同:。我们注意到,如果则在 s 期间发生一个事件,而在区间 (t-s) 期间没有事件发生。因此
现在,由于两个不重叠区间中发生的事情是独立的,。代入
泊松分布得到
该事件发生在子区间 s 内的概率与区间 s 的大小成正比。也就是说,该事件在区间 t 内均匀分布。其分布和密度函数为
其中 t 是区间的长度。如下所示。
假设我们有两个独立的泊松过程,我们将其指定为过程 1 和过程 2,并令
= the number of events in process 1 during an interval of length T = the number of events in process 2 during the same interval = the average event rate for process 1 = the average event rate for process 2
这两个过程的叠加是具有过程 1 和过程 2 的所有事件的过程。如下所示。
叠加过程中事件的概率分布是什么, ?
如果 r 是第一个过程中 T 期间的事件数量,则只有当过程 2 具有 k-r 个事件时(对 k 个事件的条件),叠加过程才能具有 k 个事件。这些过程是独立的。因此,对于每个 r 值,r=0,1...k
因此,叠加过程中出现 k 个事件的总概率是这些概率的总和,乘以过程 1 中出现 r 个事件的概率。这称为全概率公式。
代入泊松分布得到
最后一项只是以下表达式的二项式展开
因此
但这仅仅是参数为 的泊松分布。此外,由于过程 1 和过程 2 是独立的,并且每个过程在不重叠时间间隔内的事件是独立的,因此叠加过程中不重叠时间间隔内的事件也是独立的。因此,它也是一个泊松过程。
反之亦然。如果一个泊松过程被分成两个,通过以概率 p 选择第一个过程中的事件,以概率 q = 1-p 选择第二个过程中的事件,那么这两个过程就是参数分别为 和 的独立泊松过程。
叠加和分解特性是泊松过程独有的,并且源于其完全的随机性。如果两个非泊松过程(平均事件速率分别为 和 )叠加,则所得过程的平均事件速率为 ,但它既不是泊松过程,通常也不是更新过程(其中事件间时间是独立且同分布的)。
然而,如果将大量独立的非泊松过程(事件速率为 )叠加,则所得过程将为参数为 [2] 的泊松过程。
实际上,只有当 时,这才是完全正确的。同样,它源于泊松过程的随机性。对于固定的 ,随着叠加过程数量的增加,每个过程的 必须减小。因此,叠加过程中来自同一个非泊松过程的事件变得越来越分散,使过程越来越随机。
反之亦然。如果非泊松过程(平均速率为 )中的事件被不频繁地抽样(即,事件被抽样的概率 p 很小),则所得抽样过程的事件速率为
将是泊松过程。同样,只有当 且 保持不变时,这才是完全正确的。
这些极限分布有助于解释泊松过程在计算机系统分析中的实用性。例如,如果作业是从大量终端提交的,则复合作业到达率将是每个终端提交过程的叠加。这些过程往往是独立的。因此,如果终端数量很大,则复合过程将近似为泊松过程。在实践中,只需要几个终端就能使泊松分布成为实际作业到达过程的一个很好的近似值。
再举一个例子 [1],考虑在虚拟内存系统中向磁盘发出页面传输请求的过程。这可能不是非常随机,但如果磁盘扇区数量很大,并且请求以相同的概率指向这些扇区,则每个扇区的请求过程可以用泊松过程近似。
1. Gelenbe, E. 和 R.R. Muntz,“计算机系统的概率模型 - 第一部分(精确结果)”,《Acta Informatica》,第 7 卷,1976 年,第 35-66 页。
2. Karlin,Samuel 和 Howard M. Taylor,《随机过程导论》,学术出版社,1975 年。
3. Kobayashi,H,《建模与分析》,Addison Wesley,1978 年。