跳转至内容

概率/联合分布与独立性

来自维基教科书,开放世界中的开放书籍


假设我们给定一个离散随机变量 的 pmf 和一个离散随机变量 的 pmf。例如, 仅凭这些信息,我们无法判断 之间的关系。它们可能相关或不相关。

例如,随机变量 可以定义为 如果抛出一个公平硬币出现正面,否则为 ,而随机变量 可以定义为 如果再次抛硬币出现正面,否则为 。在这种情况下, 是不相关的。

另一种可能性是随机变量 被定义为 如果第一次抛硬币出现正面,否则为 。在这种情况下, 是相关的。

然而,在以上两个例子中, 的概率质量函数完全相同。

因此,为了说明 关系 之间,我们定义了 联合 累积分布函数,或者叫做联合CDF。

联合分布

[edit | edit source]

定义。 (联合累积分布函数) 设 是定义在样本空间 上的随机变量。随机变量 联合 累积分布函数 (CDF) 为

有时,我们可能想知道一个联合CDF中涉及的随机变量的随机行为。我们可以通过从联合CDF计算边际CDF来实现这一点。边际CDF的定义如下

定义。 (边际累积分布函数) 每个随机变量 的累积分布函数 边际累积分布函数 (CDF),它是 个随机变量 中的一个成员。

备注。 实际上, 的边际CDF 仅仅是 的CDF(它是单个变量的)。我们已经在前面的章节中讨论了这种CDF。

命题。(从联合累积分布函数 (CDF) 获得边缘 CDF)给定一个联合 CDF 的边缘 CDF 是

证明。 当我们将除了 之外的参数设置为 时,例如 ,联合 CDF 变成

备注。 一般来说,我们无法从给定的一组边缘 CDF 推导出联合 CDF。

示例。 考虑随机变量 的联合累积分布函数 (CDF) : 的边缘 CDF 为

类似于单变量情况,我们有联合 PMF 和联合 PDF。同样地,我们也有边缘 PMF 和边缘 PDF。

定义。 (联合概率质量函数) 联合概率质量函数(联合 PMF)为

定义。 (边缘概率质量函数) 个随机变量 中的每个随机变量 边缘概率质量函数(边缘 PMF)为

命题. (从联合概率质量函数获取边缘概率质量函数) 对于离散随机变量 ,其联合概率质量函数为 ,则 的边缘概率质量函数为

证明。 考虑只有两个随机变量的情况,比如 。那么,我们有 同样地,在一般情况下,我们有 然后,我们对其他每个变量 ( 个) 执行类似的过程,每次过程都会增加一个求和符号。因此,总共我们将有 个求和符号,最终我们将得到想要的结果。

备注。 这个过程有时被称为“对其他变量的所有可能值求和”。

示例: 假设我们掷一个公平的六面骰子两次。设 表示第一次掷骰子向上的一面,设 表示第二次掷骰子向上的一面。则 联合概率质量函数 其中 ,并且 在其他情况下。同时,边缘概率质量函数 其中 ,并且 在其他情况下。

通过对称性(将所有 替换为 并且将所有 替换为 ),边缘概率质量函数 其中 ,并且 在其他情况下。

Clipboard

练习。 假设一个盒子里有两个红球和一个蓝球,我们从盒子里一个一个地抽取两个球,并放回。令 如果第一次抽取的球是红色,且 否则。令 如果第二次抽取的球是红色,且 否则。

1 计算 的边际概率质量函数。

2 计算 的联合概率质量函数。

)
)
)


Clipboard

练习。 回顾动机部分的例子。

(a) 假设我们掷一枚公平的硬币两次。设 。证明 的联合概率质量函数为

(b) 假设我们掷一枚公平的硬币一次。设 。证明 的联合概率质量函数为

(c) 证明 的边缘概率质量函数分别为 在 (a) 和 (b) 两种情况下。 (提示:对于 (b) 部分,我们需要在指示器中代入变量的值)


证明。

(a) 由于 的支撑集为 的联合概率质量函数为

(b) 由于 的支撑集为 的联合概率质量函数为

(c) (a) 部分: 的边缘概率质量函数为 的边缘概率质量函数为

部分 (b): 的边际 pmf 为 同样, 的边际 pmf 为

对于 联合 连续随机变量,定义是连续随机变量定义(单变量情况)的推广版本。

定义。 (联合连续随机变量)随机变量 联合连续 的,如果 对于某个非负函数 成立。

备注。

  • 函数 联合概率密度函数 (joint pdf) 的
  • 类似地, 可以被理解为在“无穷小”区域 上的概率,而 可以被理解为该“无穷小”区域上概率的密度,即 ,直观且非严格地。
  • 通过设定 ,累积分布函数为

这与一元的情况类似。

定义。 (边缘概率密度函数) 每个 的 pdf ,它是 个随机变量 中的一个成员,是 边缘概率密度函数 (边缘 pdf)。

命题。 (从联合 pdf 获得边缘 pdf) 对于连续随机变量 ,其联合 pdf 为 的边缘 pdf 为

证明。 回忆关于从联合累积分布函数得到边缘累积分布函数的命题。我们有

命题。 (从联合累积分布函数得到联合概率密度函数) 如果联合累积分布函数 的联合连续随机变量在 处具有每个 偏导数,则联合概率密度函数为

证明。 它来自于使用微积分基本定理 次。

示例。 如果联合连续随机变量 的联合概率密度函数为 那么 的边缘概率密度函数为 此外,

Clipboard

练习。 为联合连续随机变量。考虑 的联合累积分布函数:

1 计算联合概率密度函数 .

2 计算 的边缘概率密度函数。



独立性

[edit | edit source]

回想一下,如果多个事件的交集的概率等于每个事件的概率的乘积,那么根据定义,这些事件是独立的。由于 也是一个事件,因此我们对 随机变量 的独立性有以下自然定义

定义。 (随机变量的独立性)随机变量 独立 的,如果 对于每个 和每个子集

备注。 在这种情况下,事件 是独立的。

定理。 (随机变量独立性的另一种条件)随机变量 独立 当且仅当 的联合 cdf 或者 的联合 pdf 或 pmf 对于每个

证明。 部分

仅当部分:如果随机变量 是独立的, 对于每个 以及对于每个子集 。设置 ,我们有 因此,我们得到了联合累积分布函数部分的结果。

对于联合pdf部分,

备注。

  • 也就是说,如果联合cdf(联合pdf(pmf))可以分解为边缘cdf(边缘pdf(pmf))的乘积
  • 实际上,如果我们可以将联合cdf或联合pdf或联合pmf分解为每个变量中一些函数的乘积,那么该条件也满足。

示例。 两个独立指数随机变量,速率为 的联合pdf是(在这种情况下,随机变量 被称为独立同分布(i.i.d.)

一般来说, 个速率为 独立指数随机变量的联合概率密度函数为 ( 在这种情况下也是独立同分布的)。

另一方面,如果两个随机变量 的联合概率密度函数为 那么随机变量 相关的,因为联合概率密度函数不能分解为边缘概率密度函数的乘积。

Clipboard

练习。 为联合连续随机变量。考虑 的联合概率密度函数:

1 计算

1
2
3
4

2 是独立的吗?


考虑 的另一个联合概率密度函数:

1 计算

1
2
3
4

2 是独立的吗?


考虑另一个 的联合概率密度函数:

1 计算

1
2
3
4

2 是独立的吗?


命题. (关于独立随机变量不相交集的事件的独立性)假设随机变量 是独立的。那么,对于每个 和固定的函数 ,随机变量 也是独立的。

例子. 假设 是独立的伯努利随机变量,其成功概率为 。那么, 也是独立的。

另一方面, 不是 独立的。独立性的反例是 左边等于零,因为 ,但 .

右边可能不等于零,因为 ,以及 。我们可以看到 可能不等于零。

Clipboard

练习。

是独立同分布的随机变量,而 也是独立同分布的随机变量。以下哪项(些)是正确的?

是独立的。
是独立的。
是独立的。
是独立的,如果 是独立的。


独立随机变量之和(可选)

[edit | edit source]

一般来说,我们使用联合累积分布函数、概率密度函数或概率质量函数,根据基本原理来确定独立随机变量之和的分布。特别地,关于的分布,有一些有趣的结论,这些结论与独立的随机变量有关。

独立随机变量之和

命题. (累积分布函数和概率密度函数的卷积)如果独立随机变量 的累积分布函数分别为 ,则 的累积分布函数是 并且 的概率密度函数是

证明。

  • 连续情况
  • cdf:
/\                                     
//\ y                                
///\|
////*
////|\
////|/\
////|//\ x+y=z <=> x=z-y
////|///\
////|////\
----*-----*--------------- x 
////|//////\
////|///////\

-->: -infty to z-y
^
|: -infty to infty
 
*--*
|//| : x+y <= z
*--*
  • pdf:

备注。

  • 在这种情况下,cdf 和 pdf 实际上是 cdf 卷积,以及 pdf(pmf) 的卷积,因此得名。

例子。

  • 的概率密度函数为 .
  • 的概率密度函数为 .
  • 那么, 的概率密度函数为

图形上,概率密度函数看起来像

        y
        |
        |
        |
     *  * 1
      \ |\  
  y=-z \| \ y=1-z
-----*--*--*----- z
    -1 O|  1   
        |
     -1 *
        |
Clipboard

练习。

1 计算 .

0
1/4
1/2
3/4
1

2 计算 .

0
1/4
1/2
3/4
1

3 计算 使得 .

-1/2
-1/4
0
1/4
1/2



命题。 (概率质量函数的卷积) 如果独立随机变量 的概率质量函数分别为 ,则 的概率质量函数为

证明。

  • .
  • 对于每个非负整数

  • 由于对于每个 ,因此 是成对不相交的。
  • 因此,根据扩展的概率公理3和 的独立性,
  • 结果由定义得出。

例如: 我们连续两次掷一个公平的六面骰子(独立地)。 那么,两次掷出的数字之和为 7 的概率是 .

证明: 分别代表第一次和第二次掷出的数字。 所需的概率是

Clipboard

练习。

1 计算两次掷出的数字之和为 6 的概率。

1/12
1/6
5/36
7/36
4/9

2 两次掷出的数字之和为 的概率为 0。 以下哪些是 的可能取值?

1
2
3
12
13

3 假设骰子被改造了,使得掷出 6 的概率现在是 ,而其他数字出现的概率相等。 计算两次掷出的数字之和现在为 7 的概率。

0.1
0.101
0.1001
0.10000001
0.167



命题: (独立泊松随机变量的和)如果 并且 独立, 那么 .

证明。

  • 的 pmf 为

  • 这个 pmf 作为 的 pmf,因此 .
  • 我们可以通过归纳法将此结果扩展到 个 Poisson 随机变量。

示例。 设有两个服务柜台,第一个柜台每小时收到 个咨询,而第二个柜台每小时收到 个咨询。假设 独立,则两个柜台每小时收到的咨询数量服从 .

证明。

  • 两个柜台每小时收到的咨询数量是 .
  • 然后,结果来自 Poisson 随机变量之和的命题。

Clipboard

练习。

第一个柜台两个小时收到的咨询数量服从什么分布?



顺序统计量

[edit | edit source]

定义. (顺序统计量) 设 个独立同分布的随机变量 (每个随机变量的累积分布函数为 )。定义 中最小值、第二小值、...、最大值。那么,有序值 称为 顺序统计量

命题. (顺序统计量的累积分布函数) 的累积分布函数 ( 是一个满足 的整数) 为

证明。

  • 考虑事件 .
                          Possible positions of x
                      |<--------------------->
    *---*----...------*----*------...--------*
X  (1)  (2)          (k)  (k+1)             (n)
                      |----------------------> when x moves RHS like this, >=k X_i are at the LHS of x
  • 从上图可以看出 .
  • 令小于等于 的个数为 .
  • 因为 (因为对于每个 ,我们可以将 视为伯努利试验的两个结果),
  • cdf 是

示例。 为独立同分布的随机变量,服从 。那么, 的累积分布函数为

Clipboard

练习。

计算 .

0.000665
0.000994
0.036296
0.963704
0.999335




泊松过程

[编辑 | 编辑源代码]

定义。

泊松过程的示意图。每个圆圈表示一次到达。到达事件以共同速率 发生,并且连续的到达间隔时间是独立的。

如果不可预测事件的连续 到达间隔 时间是 独立 的随机变量,并且每个变量都服从以共同速率 指数 分布,那么到达事件的过程就是一个速率为 泊松过程

泊松过程有一些重要的性质。

命题。(泊松过程中第 个事件的时间)泊松过程中第 个事件的时间服从 分布。

证明。

  • 个事件发生的时间为 ,其中每个事件遵循 分布。
  • 我们只需要证明 ,然后我们就可以通过归纳法得出结论。
这是 分布的概率密度函数,证毕。

注: 个事件发生的时间也是第 个相继到达时间之和,在第 个事件之前。

命题:(固定时间间隔内的到达次数)固定时间间隔内到达事件的次数,其时间长度为 ,服从 分布。

Proof. For each nonnegative integer , let be the interarrival time between the -th and -th arrival, and be the time to th event, starting from the beginning of the fixed time interval (we can treat the start to be time zero because of the memoryless property). The joint pdf of is Let the number of arrivals within the fixed time interval. The pmf of is which is the pmf of . The result follows.

命题。 (第一个到达时间, 个独立的泊松过程)设 是独立的随机变量,且 ,其中 。如果我们定义 (这是 个独立泊松过程的第一个到达时间),则 .

证明。 对于每个

示例. 假设有两个服务柜台,柜台 A 和 B,它们的服务时间独立,服从速率为 的指数分布。在过去的 10 分钟里,约翰和彼得分别在柜台 A 和 B 接受服务。

首先,你需要等待的服务时间(即约翰或彼得中一人离开柜台的时间)是从现在开始算起的约翰和彼得的服务时间的最小值,它们相互独立,服从速率为 的指数分布。因此,你的 等待时间 服从 速率为 指数分布

假设现在约翰离开柜台 A,而你正在柜台 A 接受服务。那么,你比彼得先离开柜台的概率,根据 无记忆性对称性(彼得和你先离开柜台的概率由相同的随机机制控制),这看似违反直觉。

Clipboard

练习. 假设汽车事故的到达过程是一个速率为 1 的泊松过程。令 为第 起汽车事故的时间, 为第 起和第 起事故之间的间隔时间。

1 以下哪些是正确的?

2 以下哪些是正确的?

3 以下哪些是正确的?

在固定时间长度为的区间内,到达次数的概率质量函数为 .



华夏公益教科书