跳转到内容

概率/重要分布

来自维基教科书,开放的书,开放的世界

离散随机变量的分布

[编辑 | 编辑源代码]

初步概念:伯努利试验

[编辑 | 编辑源代码]

定义. (伯努利试验) 一个伯努利试验是一个只有两个可能结果的实验,即成功和失败。

备注。

  • '成功'和'失败'仅仅作为标签,即我们可以将实验中的任何一个结果定义为'成功'。

定义. (伯努利试验的独立性) 令为事件[1]. 如果独立的,那么相应的伯努利试验是独立的。

示例. 如果我们将抛硬币的结果解释为'正面朝上'和'反面朝上',那么抛硬币就是一个伯努利试验。

Clipboard

练习。

如果我们将抛硬币的结果解释为'正面朝上'、'反面朝上'和'硬币立在边上',那么抛硬币是伯努利试验吗?

是。
不是。



备注。

  • 我们通常将抛硬币的结果解释为'正面朝上'和'反面朝上'。

二项分布

[编辑 | 编辑源代码]

考虑 个独立的伯努利试验,每个试验的成功概率均为 。 我们想要计算概率

为事件 ,如上一节所述。让我们考虑一个特定的结果序列,其中有 次成功,在 次试验中: 。它的概率是 [2] 由于其他序列的概率(其中一些 次成功发生在其他试验中)是 相同的,并且存在 个不同的可能序列[3] 这是一个随机变量的概率质量函数,该随机变量遵循 二项分布

定义

[edit | edit source]

定义。(二项分布)

的概率质量函数。

随机变量 服从 二项分布,具有 个独立的伯努利试验和成功概率 ,表示为 ,如果其概率质量函数为

的累积分布函数。

备注。

  • 概率质量函数中的 “” 強調了分布的 参数(即描述分布的量)的值为 。我们可以对概率密度函数使用类似的符号。
  • 对于强调参数值的表示,还有一些替代方法。例如,当参数值为 时,pdf/pmf 可以表示为
  • 当然,不需要将这些添加到 pdf/pmf 中,但它可以使所涉及的参数值更加明确和清晰。
  • pmf 包含一个 二项式 系数,因此得名 '二项式 分布'。
  • 每个分布的一般说明:
  • 我们也可以直接写下分布的符号来表示分布本身,例如 代表二项式分布。
  • 有时为了简便,我们会说一个分布的 pmf、pdf 或支撑,指的是遵循该分布的随机变量的 pmf、pdf 或支撑(分别)。(这也适用于分布的其他属性(将在后面的章节中讨论),例如均值、方差等)。



伯努利分布

[edit | edit source]

伯努利分布是 二项式 分布的一个特例,如下所示

定义。 (伯努利分布)

的 pmf。

一个随机变量 遵循成功概率为 伯努利分布,记为 ,如果它的 pmf 是

的 cdf。

备注。

  • .
  • 这是一个伯努利试验,因此得名“伯努利分布”。

泊松分布

[编辑 | 编辑源代码]

泊松分布可以被看作是二项分布的“极限情况”。

考虑 个独立的伯努利试验,成功概率为。根据二项分布,

After that, consider an unit time interval, with (positive) occurrence rate of a rare event (i.e. the mean of number of occurrence of the rare event is ). We can divide the unit time interval to time subintervals of time length each. If is large and is relatively small, such that the probability for occurrence of two or more rare events at a single time interval is negligible, then the probability for occurrence of exactly one rare event for each time subinterval is by definition of mean. Then, we can view the unit time interval as a sequence of Bernoulli trials [4] with success probability . After that, we can use to model the number of occurrences of rare event. To be more precise, This is the pmf of a random variable following the Poisson distribution, and this result is known as the Poisson limit theorem (or law of rare events). We will introduce it formally after introducing the definition of Poisson distribution.

定义。(泊松分布)

的概率质量函数 (pmf)。

如果随机变量 服从参数为正数 泊松分布,记为 ,那么它的 pmf 为

的累积分布函数 (CDF)。

备注。

定理。 (泊松极限定理) 遵循 的随机变量 在分布上收敛 到一个遵循 的随机变量,当

证明。 该结果源于上面证明的结果: 的概率质量函数 (PMF) 当 时趋近于 的 PMF。

备注。

  • 因此,泊松分布可用于近似大的 和相对小的 的二项分布。


几何分布

[编辑 | 编辑源代码]

考虑一个独立伯努利试验序列,其成功概率为 。 我们想计算概率 。 通过考虑以下结果序列: ,我们可以计算出 [5] 这是一个服从几何分布的随机变量的概率质量函数。

定义

[edit | edit source]

定义。 (几何分布)

的概率质量函数。

如果随机变量 服从参数为 几何分布,记为 ,则其概率质量函数为

的累积分布函数。

备注。

  • 开始,输入值 依次递增(即 ) 构成一个 等比数列,因此得名“几何分布”。
  • 另一种定义是,概率质量函数为 ,它是 的概率,其支撑集为

命题.(几何分布的无记忆性)如果 ,则对于每个 非负 整数 ,有

证明。

  • 特别是, 因为 .

备注。

  • 可以解释为 '在第一次成功之前,有超过 次失败';
  • 可以解释为 '已经发生了 次失败,所以在第一次成功之前,有超过或等于 次失败'。
  • 这意味着条件不影响剩余第一次成功之前的失败次数的分布(它仍然遵循具有相同成功概率的几何分布)。
  • 因此,我们可以假设试验在任意失败的试验后重新开始
  • 例如,如果第一次试验失败,则第一次成功之前的剩余失败次数的分布不会受到影响。
  • 此外,如果第一次试验成功,则条件变为,而不是,因此上述公式不适用于这种情况。
  • 事实上,,因为考虑到不能超过零。

负二项分布

[编辑 | 编辑源代码]

Consider a sequence of independent Bernoulli trials with success probability . We would like to calculate the probability . By considering this sequence of outcomes: we can calculate that Since the probability of other sequences with some of failures occuring in other trials (and some of successes (excluding the th success, which must occur in the last trial) occuring in other trials), is the same, and there are (or , which is the same numerically) distinct possible sequences [6], This is the pmf of a random variable following the negative binomial distribution.

定义. (负二项分布)

的 pmf。

随机变量 遵循 负二项分布,其 成功概率,记为 ,如果它的 pmf 为

的 cdf。

备注。

  • 负二项 系数被涉及,因此得名 '负二项 分布'。


超几何分布

[edit | edit source]

动机

[edit | edit source]

考虑从总体大小为 的总体中,不放回地抽取大小为 的样本,该总体包含 个类型 1 的对象和 个其他类型的对象。那么,概率 [7].

  • : 从 个(可区分的)类型 1 的对象中,不放回地选择 个对象的无序选择;
  • : 从 个(可区分的)其他类型的对象中,不放回地选择 个对象的无序选择;
  • : 从 个(可区分的)对象中,不放回地选择 个对象的无序选择。

这是一个遵循 超几何分布 的随机变量的 pmf。

定义

[edit | edit source]

定义。 (超几何分布)

的概率质量函数。

随机变量 服从 超几何分布,其中从包含 个类型 1 对象和 个其他类型对象的集合中抽取 个对象,记为 ,如果它的概率质量函数是

的累积分布函数。

备注。

  • 概率质量函数有点类似于 超几何 级数[8],因此得名 “超几何 分布”。


有限离散分布

[edit | edit source]

这种类型的分布是所有具有有限支撑的离散分布的推广,例如伯努利分布和超几何分布。

这种类型分布的另一个特例是 离散均匀分布,它类似于 连续均匀分布(将在后面讨论)。

定义。 (有限离散分布) 随机变量 服从向量 和概率向量 有限离散分布,记作 ,如果它的概率质量函数为

备注。

  • 对于均值和方差,我们可以直接根据定义进行计算。有限离散分布没有特殊的公式。

定义。 (离散均匀分布) 离散均匀分布,记作 ,是指 .

备注。

  • 它的概率质量函数为

示例。 假设随机变量 。 然后, 概率质量函数的示意图

|
|              *
|              |
|         *    |
|    *    |    |
|    |    |    |
*----*----*----*-------
     1    2    3

示例。 假设随机变量 。 然后, 概率质量函数的示意图

|
|               
|               
|    *    *    *
|    |    |    |
|    |    |    |
*----*----*----*-------
     1    2    3
Clipboard

练习。

  

1 以下哪种分布应该用于模拟城镇一天的交通事故数量?

二项分布。
泊松分布。
几何分布。
负二项分布。
超几何分布。

2 在200人中,每个人独立地有0.1的概率成为吸烟者。我们从他们中随机抽取一个人,直到选到一个吸烟者为止。以下哪种分布应该用于模拟选取人数,直到选到吸烟者之前的那个数字?

二项分布。
泊松分布。
几何分布。
负二项分布。
超几何分布。

3 已知在1000名出租车司机中,80%的人由一家保险公司投保。从他们中随机抽取30名出租车司机,不放回。以下哪种分布应该用于模拟所抽取的未投保司机的数量?

二项分布。
泊松分布。
几何分布。
负二项分布。
超几何分布。

4 一家保险公司已售出500份保单。精算师确定,对于每份保单,都需要向投保人支付理赔款的概率为0.1,并且相互独立。以下哪种分布应该用于模拟需要向投保人支付理赔款的保单数量?

二项分布。
泊松分布。
几何分布。
负二项分布。
超几何分布。

5 一家保险公司已售出500份保单。精算师确定,对于每份保单,都需要向投保人支付理赔款的概率为0.1,并且相互独立。以下哪种分布应该用于模拟检查保单的次数,直到支付了10次理赔款给投保人?

二项分布。
泊松分布。
几何分布。
负二项分布。
超几何分布。

6 以下哪种分布应该用于模拟城镇中感染罕见疾病的人数?

二项分布。
泊松分布。
几何分布。
负二项分布。
超几何分布。

7 一个箱子里有100个红色球、300个蓝色球和250个绿色球。从箱子里抽取100个球。从箱子里抽取的非蓝色球的数量服从哪种分布?

8 以下哪个或哪些分布恰好有两个参数?

二项分布。
伯努利分布。
泊松分布。
几何分布。
负二项分布。
超几何分布。

9 一家制造商销售200个灯泡,每个灯泡的价格为100美元。制造商承诺,如果买家购买的灯泡在购买后的第一周内出现故障,将全额退款给买家。假设每个灯泡在第一周内出现故障的概率为0.001,并且相互独立,那么退款次数服从哪种分布?


连续随机变量的分布

[编辑 | 编辑源代码]

均匀分布(连续)

[编辑 | 编辑源代码]

连续均匀分布是“无偏好”的模型,即其支撑集上所有长度相同的区间都具有相同的概率 [9](可以从对应于连续均匀分布的概率密度函数中看出)。还存在离散均匀分布,但它不如连续均匀分布重要。因此,从现在开始,简称为“均匀分布”是指连续分布,而不是离散分布。

定义。(均匀分布)

.

如果随机变量 遵循 均匀分布,用 表示,如果其 pdf 为

备注。

  • 的支持也可以是 ,不会影响相关事件的概率,因为使用 pdf 在一个 单一 点上计算的概率总是
  • 标准均匀分布

命题。

的 cdf。

(均匀分布的 cdf) 的 cdf 为

证明。 然后,结果就出来了。


指数分布

[编辑 | 编辑源代码]

带有速率参数 指数 分布通常用于描述速率为 的罕见事件的 到达时间间隔

泊松 分布相比,指数 分布描述了罕见事件的到达时间间隔,而 泊松 分布描述了在固定时间间隔内罕见事件发生的 数量

根据 速率 的定义,当 速率 时,到达时间间隔 (即,罕见事件的频率 )。

因此,我们希望当 时,pdf 更偏向左侧(即,当 时,pdf 对较小的 有更高的值),以便当 时,包含较小 值的区间的 pdf 下的面积

此外,由于速率 恒定,到达时间间隔不太可能出现更高的值。因此,直观地说,我们也希望 pdf 是一个严格的 递减 函数,以便当 时,所涉及的概率(pdf 在某个区间的下的面积)

如我们所见,指数分布的 pdf 满足这两个性质。

定义。(指数分布)

以下是 的 PDF 文件。

随机变量 服从 指数分布,其正 速率 参数为 ,表示为 ,如果其 PDF 为

命题。 (指数分布的 CDF)

以下分别是 的 CDF。

的 CDF 为

证明。 假设 . 的累积分布函数为

命题。 (指数分布的无记忆性) 如果 , 那么 对于每个 非负.

证明。

备注。

  • 可以解释为“在接下来的 个时间单位内不会发生罕见事件”;
  • 可以解释为“在过去的 个时间单位内没有发生罕见事件”。
  • 这意味着条件 不会影响罕见事件剩余等待时间的分布(它仍然遵循相同参数的指数分布)。
  • 因此,我们可以假设事件的到达过程在观察的任意时间点重新开始


Gamma 分布

[edit | edit source]

Gamma 分布是广义的指数分布,从某种意义上说,我们也可以改变形状指数分布的 pdf。

定义。 (Gamma 分布)

的 pdf。

随机变量 服从 伽马分布,其中 形状 参数 为正数,速率 参数 为正数,记为 ,如果其概率密度函数为

的累积分布函数。

备注。

  • ,因为 的概率密度函数

这是 的概率密度函数。

贝塔分布

[编辑 | 编辑源代码]

贝塔 分布是 的推广,因为我们可以使用 两个形状参数 来改变概率密度函数的 形状

定义。 (贝塔分布)

以下是 的 PDF 文件。

随机变量 遵循 beta 分布,其正形状参数为 ,记为 ,如果其 PDF 为

以下是 的 CDF 文件。

备注。

  • ,因为 的 PDF 为

这是 的 pdf。

柯西分布

[edit | edit source]

柯西分布是一种 重尾 分布 [10]。因此,它是一个“病态”分布,因为它的某些性质违反直觉,例如,尽管它的均值和方差在直接观察其图形时 似乎 是定义的,但它却并没有定义均值和方差。

定义。(柯西分布)

Pdfcdf of .

随机变量 遵循 柯西分布,其 位置 参数为 ,记为 ,如果其 pdf 为

备注。

  • 此定义指的是柯西分布的一个 特例。更准确地说,柯西分布的完整定义中还包括 尺度 参数,而这里 pdf 中的尺度参数被设置为 1。
  • 为了简单起见,这里使用了此定义。
  • Pdf 关于 对称,因为 .

正态分布(非常重要)

[edit | edit source]

正态分布或高斯分布是一个美丽的事物,它出现在自然界的许多地方。这可能是因为样本均值或样本和经常 近似 遵循 正态 分布,这是由 中心极限定理 决定的。因此,正态 分布在统计学中非常重要。

定义。(正态分布)

的 pdf。

随机变量 服从 正态分布,其 均值方差,记作 ,如果其概率密度函数为

的累积分布函数。

备注。

  • 分布 标准 正态分布。
  • 对于 ,其概率密度函数通常记作 ,其累积分布函数通常记作
  • 的概率密度函数为
  • 因此, 的概率密度函数是
  • 我们将证明 实际上是 均值,而 实际上是 方差
  • 该概率密度函数关于 对称,因为

命题。(正态分布随机变量的线性变换分布)如果 ,且 为常数,则

证明。 假设 [11]. 令 分别为 的累积分布函数。由于 通过微分, 这是 的概率密度函数。

备注。

  • 一个特殊情况是当 ,因为
  • ;
  • .
  • 这表明我们可以将每个正态分布的随机变量转换为服从标准正态分布的随机变量。
  • 这可以简化与正态分布随机变量相关的概率计算,因为我们有 标准正态表,其中给出不同 值。
  • 对于某些类型的标准正态表,只给出不同 非负 值。
  • 然后,我们可以使用以下公式计算其在不同负 处的值:

  • 这个公式成立,因为


统计学中重要的分布,尤其是

[edit | edit source]

以下分布在统计学中尤为重要,它们都与正态分布有关。我们将简要介绍它们。

卡方分布

[edit | edit source]

卡方分布是伽马分布的一个特例,也与标准正态分布有关。

定义。 (卡方分布)

的 pdf

具有正的自由度的卡方分布 ,表示为 ,是 的分布,其中 是独立同分布的,并且它们都遵循

的 cdf

备注。

  • 可以证明 ,因此 。(然后,我们可以通过此推导出 的pdf。)
  • 这意味着对于随机变量
  • 一个随机变量 服从 卡方 分布,其自由度为 ,记为

学生t分布

[edit | edit source]

学生t分布卡方 分布和 正态 分布有关。

定义.(学生 分布)

的pdf。

带有 个自由度的 学生 -分布,记为 ,是 的分布,其中 .

的累积分布函数。

备注。

  • 是扩展的实数)。
  • 时,pdf 的尾部更重。
  • 一个服从 (学生) -分布,带有 个自由度的随机变量 ,记为 .
  • 可以证明, 的 pdf 为

分布在某种程度上是广义的学生 分布,因为它多了一个可变参数来表示另一个自由度。

定义。 ( 分布) 具有 自由度的 -分布,记为 ,是 的分布,其中 .

的 PDF。
的累积分布函数。

备注。

  • .
  • 一个服从 -分布 的随机变量 ,具有 自由度,记为
  • 可以证明, 的概率密度函数为

如果您想了解卡方分布学生-分布-分布 在统计学中的用途,您可以简要浏览一下,例如,统计学/区间估计(置信区间构建中的应用)和 统计学/假设检验(假设检验中的应用)。

联合分布

[编辑 | 编辑源代码]

多项式分布

[编辑 | 编辑源代码]

多项式分布是广义二项式分布,因为每次试验的结果不止两种。

假设有 个对象要分配到 个单元格,每个对象独立分配到一个且仅一个单元格,分配到第 个单元格的概率为 () [12]。设 为分配到第 个单元格的对象数量。我们想计算概率 ,即第 个单元格有 个对象的概率。

我们可以将每个分配视为一个独立的试验,有 种结果(因为它只能分配到 个单元格中的一个)。我们可以认识到,对 个对象的分配是将 个对象划分为 组。因此,有 种分配方式。

所以, 特别地,将 个对象分配到第 个单元格的概率是 ,根据独立性,因此将 个对象分配到 个单元格的特定分配情况的概率为 ,根据独立性。

定义. (多项式分布) 一个随机向量 遵循多项式分布,其中有 次试验和概率向量 ,记为 ,如果其联合概率质量函数为

备注。

  • 如果 .
  • 在这种情况下,如果 是二项式分布的成功次数(而 是失败次数)。
  • 此外,。可以从将对象分配到第个单元格作为“成功”来看出,对于每个单个对象的分配[13]。然后,成功的概率为


多元正态分布

[edit | edit source]

多元正态分布,顾名思义,是正态分布(单变量)的多变量(以及推广)版本。

Definition. (Multivariate normal distribution) A random vector follows the -dimensional normal distribution with mean vector and covariance matrix , denoted by [14] if its joint pdf is in which is the mean vector, and is the covariance matrix (with size ).

备注。

  • 情况的分布更常用,它被称为双变量正态分布。
  • 一个替代且等效的定义是,如果

对于一些常数,以及个独立同分布的标准正态随机变量。
  • 利用上述结果,所服从的边缘分布为,正如预期的那样。
  • 根据独立正态随机变量之和的命题以及正态随机变量线性变换的分布(参见概率/随机变量的变换章节),均值为 ,方差为 (根据定义,这等于 )。

命题。(双变量正态分布的联合概率密度函数)的联合概率密度函数为

其中 为正数。
双变量正态分布示例图

证明。对于双变量正态分布,

  • 均值向量
  • 协方差矩阵
  • 因此,

  • 联合pdf为


  1. 或者,我们可以将事件定义为
  2. 'indpt.' 代表独立。
  3. 这是因为存在对(可区分和有序)的无序选择 次试验以获得 '成功',从 次试验中进行不放回抽样(然后剩余的位置用于 '失败')。
  4. 将罕见事件的发生视为'成功',而罕见事件的未发生则视为'失败'。
  5. 与二项分布的结果不同,每个 只有一个 可能的 序列。
  6. 次试验中进行 '失败'(或 '成功')的无序选择。
  7. 的限制是为了使二项式系数有定义,即该表达式 '有意义'。在实践中,我们很少直接使用这个条件。相反,我们通常直接确定 的特定值是否 '有意义'。
  8. 这超出了本书的范围。
  9. 概率 '在区间上均匀分布'。
  10. 与其他 轻尾 分布(例如正态分布)相比,服从 柯西 分布的随机变量具有相对较高的概率取 极端值。在图形上,pdf 的 '尾部'(即左端和右端)。
  11. 对于 的情况类似(不等号方向相反,最终我们将有两个负号相互抵消)。同样,当 时,随机变量变为非随机常数,因此我们对此情况不感兴趣。
  12. 那么,
  13. 如果该对象被分配到除 格以外的格,那么它就 '失败'。
  14. 对于 的下标 是为了强调该分布是 维的,是可选的。
华夏公益教科书