概率/重要分布

随机变量

概率
重要分布

联合分布与独立性

离散随机变量的分布

初步概念：伯努利试验

定义。（伯努利试验）伯努利试验是一种只有两个可能结果的实验，即成功和失败。

备注。

'成功'和'失败'仅作为标签，即我们可以将实验中的任意一个结果定义为'成功'。

定义。（伯努利试验的独立性）令 $S_{i}$ 为事件 $\{i{\text{th Bernoulli trial is a success}}\},\quad i=1,2,\dotsc$ ^[1]。如果 $S_{1},S_{2},\dotsc$ 是独立的，则相应的伯努利试验是独立的。

示例。如果我们将抛硬币的结果解释为'正面朝上'和'反面朝上'，则抛硬币是一个伯努利试验。

练习。

备注。

我们通常将抛硬币的结果解释为'正面朝上'和'反面朝上'。

二项分布

动机

考虑 ${\color {blue}n}$ 个独立的伯努利试验，每个试验的成功概率为 ${\color {darkgreen}p}$ 。我们希望计算概率 $\mathbb {P} (\{{\color {darkgreen}r}{\text{ successes in }}{\color {blue}n}{\text{ trials}}\})$ 。

令 $S_{i}$ 表示事件 $\{i{\text{th Bernoulli trial is a success}}\},\quad i=1,2,\dotsc$ ，如上一节所述。现在考虑一个特定的结果序列，其中在 ${\color {blue}n}$ 次试验中有 ${\color {darkgreen}r}$ 次成功： ${\color {darkgreen}\underbrace {S\cdots S} _{r{\text{ successes}}}}{\color {red}\overbrace {F\cdots F} ^{{\color {blue}n}-{\color {darkgreen}r}{\text{ failures}}}}$ 它的概率是 $\mathbb {P} ({\color {darkgreen}S_{1}\cap \dotsb S_{r}}\cap {\color {red}S_{r+1}^{c}\cap \dotsb \cap S_{\color {blue}n}^{c}}){\overset {\text{ indpt. }}{=}}{\color {darkgreen}\mathbb {P} (S_{1})\dotsb \mathbb {P} (S_{r})}{\color {red}\mathbb {P} (S_{r+1}^{c})\cdots \mathbb {P} (S_{\color {blue}n}^{c})}={\color {darkgreen}p^{r}}{\color {red}(1-{\color {darkgreen}p})^{{\color {blue}n}-{\color {darkgreen}r}}}$ ^[2] 由于其他一些具有 ${\color {darkgreen}r}$ 次成功的序列在其他试验中出现的概率是 相同的，并且有 ${\binom {\color {blue}n}{\color {darkgreen}r}}$ 个不同的可能序列^[3]， $\mathbb {P} (\{{\color {darkgreen}r}{\text{ successes in }}{\color {blue}n}{\text{ trials}}\})={\binom {\color {blue}n}{\color {darkgreen}r}}{\color {darkgreen}p}^{\color {darkgreen}r}{\color {red}(1-{\color {darkgreen}p})^{{\color {blue}n}-{\color {darkgreen}r}}}.$ 这是一个服从二项分布的随机变量的概率质量函数。

定义

定义. （二项分布）

一个随机变量 $X$ 服从 二项分布，它有 ${\color {blue}n}$ 次独立的伯努利试验，每次试验成功的概率为 ${\color {darkgreen}p}$ ，记作 $X\sim \operatorname {Binom} ({\color {blue}n},{\color {darkgreen}p})$ ，如果它的概率质量函数是 $f({\color {darkgreen}x};{\color {blue}n},{\color {darkgreen}p})={\binom {\color {blue}n}{\color {darkgreen}x}}{\color {darkgreen}p^{x}}{\color {red}(1-{\color {darkgreen}p})^{{\color {blue}n}-{\color {darkgreen}x}}},\quad {\color {darkgreen}x}\in \operatorname {supp} (X)=\{0,1,2,\dotsc ,{\color {blue}n}\}.$

备注。

概率质量函数中的 " $;n,p$ " 强调了分布的参数（即描述分布的量）的值是 $n$ 和 $p$ 。我们也可以对概率密度函数使用类似的记号。

还有一些其他方法来强调参数值。例如，当参数值为 $\theta$ 时，概率密度函数/概率质量函数可以记作 $f(\cdot |\theta ),f_{\theta }(\cdot ),\dotsc$
当然，这些内容并非概率密度函数/概率质量函数的必要组成部分，但它们可以使涉及的参数值更加明确和清晰。

概率质量函数包含一个 二项式 系数，因此被称为 '二项分布'。
每个分布的一般说明:

我们也可以直接写下分布的记号来表示分布本身，例如 $\operatorname {Binom} {({\color {blue}n},{\color {darkgreen}p})}$ 代表二项分布。
为了简便起见，我们有时会说分布的 pmf、pdf 或支撑，指的是遵循该分布的随机变量的 pmf、pdf 或支撑（分别）。（这也适用于分布的其他性质（将在后面的章节中讨论），例如均值、方差等）。

伯努利分布

伯努利分布只是二项式分布的一个特例，如下所示

定义.（伯努利分布）

随机变量 $X$ 遵循成功概率为 ${\color {darkgreen}p}$ 的伯努利分布，表示为 $X\sim \operatorname {Ber} ({\color {darkgreen}p})$ ，如果其 pmf 为 $f({\color {darkgreen}x};{\color {darkgreen}p})={\color {darkgreen}p^{x}}{\color {red}(1-{\color {darkgreen}p})^{1-{\color {darkgreen}x}}},\quad {\color {darkgreen}x}\in \operatorname {supp} (X)=\{0,1\}.$

备注。

$\operatorname {Ber} ({\color {darkgreen}p})=\operatorname {Binom} (1,{\color {darkgreen}p})$ .
这里只涉及一次伯努利试验，因此称为“伯努利分布”。

泊松分布

动机

泊松分布可以被视为二项式分布的“极限情况”。

考虑 ${\color {blue}n}$ 个独立的伯努利试验，每次试验成功的概率为 ${\color {darkgreen}p}=\lambda /{\color {blue}n}$ 。根据二项分布， $\mathbb {P} ({\color {darkgreen}r}{\text{ successes in }}{\color {blue}n}{\text{ trials}})={\binom {\color {blue}n}{\color {darkgreen}r}}{\color {darkgreen}(\lambda /{\color {blue}n})^{r}}{\color {red}(1-\lambda /{\color {blue}n})^{{\color {blue}n}-{\color {darkgreen}r}}}.$

After that, consider an unit time interval, with (positive) occurrence rate $\lambda$ of a rare event (i.e. the mean of number of occurrence of the rare event is $\lambda$ ). We can divide the unit time interval to ${\color {blue}n}$ time subintervals of time length $1/{\color {blue}n}$ each. If ${\color {blue}n}$ is large and ${\color {darkgreen}p}$ is relatively small, such that the probability for occurrence of two or more rare events at a single time interval is negligible, then the probability for occurrence of exactly one rare event for each time subinterval is ${\color {darkgreen}p}=\lambda /{\color {blue}n}$ by definition of mean. Then, we can view the unit time interval as a sequence of ${\color {blue}n}$ Bernoulli trials ^[4] with success probability ${\color {darkgreen}p}=\lambda /{\color {blue}n}$ . After that, we can use $\operatorname {Binom} {({\color {blue}n},\lambda /{\color {blue}n})}$ to model the number of occurrences of rare event. To be more precise, ${\begin{aligned}\mathbb {P} (\underbrace {{\color {darkgreen}r}{\text{ successes in }}{\color {blue}n}{\text{ trials}}} _{{\color {darkgreen}r}{\text{ rare events in the unit time}}})&={\binom {\color {blue}n}{\color {darkgreen}r}}{\color {darkgreen}(\lambda /{\color {blue}n})^{r}}{\color {red}(1-\lambda /{\color {blue}n})^{{\color {blue}n}-{\color {darkgreen}r}}}\\&={\frac {{\color {blue}n}({\color {blue}n}-1)\dotsb ({\color {blue}n}-{\color {darkgreen}r}+1)}{{\color {darkgreen}r}!}}(\lambda ^{\color {darkgreen}r}/{\color {blue}n}^{\color {darkgreen}r})(1-\lambda /{\color {blue}n})^{{\color {blue}n}-{\color {darkgreen}r}}\\&=(\lambda ^{\color {darkgreen}r}/{\color {darkgreen}r}!)\overbrace {(1-\underbrace {1/{\color {blue}n}} _{\to 0{\text{ as }}n\to \infty })\dotsb {\big (}1-\underbrace {({\color {darkgreen}r-1})/{\color {blue}n}} _{\to 0{\text{ as }}n\to \infty }{\big )}} ^{\to 1{\text{ as }}n\to \infty }\underbrace {(1-\lambda /{\color {blue}n})^{\overbrace {{\color {blue}n}-{\color {darkgreen}r}} ^{\to n{\text{ as }}n\to \infty }}} _{\to e^{-\lambda }{\text{ as }}n\to \infty }\\&\to e^{-\lambda }\lambda ^{\color {darkgreen}r}/{\color {darkgreen}r}!{\text{ as }}n\to \infty .\end{aligned}}$ This is the pmf of a random variable following the Poisson distribution, and this result is known as the Poisson limit theorem (or law of rare events). We will introduce it formally after introducing the definition of Poisson distribution.

定义

定义。 （泊松分布）

一个随机变量 $X$ 服从参数为正数 $\lambda$ 的 泊松分布，记为 $X\sim \operatorname {Pois} (\lambda )$ ，如果它的概率质量函数为 $f({\color {darkgreen}x};\lambda )=e^{-\lambda }\lambda ^{\color {darkgreen}x}/{\color {darkgreen}x}!,\quad {\color {darkgreen}x}\in \operatorname {supp} (X)=\{0,1,2,\dotsc \}.$

备注。

它以法国数学家西蒙·德尼·泊松的名字命名。

定理。（泊松极限定理）一个服从 $\operatorname {Binom} {({\color {blue}n},\lambda /{\color {blue}n}})$ 分布收敛 于一个服从 $\operatorname {Pois} {(\lambda )}$ 的随机变量，当 ${\color {blue}n}\to \infty$ .

证明。 该结果源于上面证明的结果： $\operatorname {Binom} ({\color {blue}n},\lambda /{\color {blue}n})$ 的概率质量函数随着 ${\color {blue}n}\to \infty$ 趋近于 $\operatorname {Pois} {(\lambda )}$ 的概率质量函数。

$\Box$

备注。

因此，对于较大的 ${\color {blue}n}$ 和相对较小的 ${\color {darkgreen}p}=\lambda /{\color {blue}n}$ ，可以使用泊松分布来近似二项分布。

几何分布

动机

假设有一系列独立的伯努利试验，成功概率为 ${\color {darkgreen}p}$ 。我们希望计算概率 $\mathbb {P} (\{{\color {red}x}{\text{ failures before first success}}\})$ 。通过考虑以下结果序列： ${\color {red}\underbrace {F\cdots F} _{{\color {red}x}{\text{ failures}}}}{\color {darkgreen}S},$ 我们可以计算得到 $\mathbb {P} (\{{\color {red}x}{\text{ failures before first success}}\})={\color {red}(1-{\color {darkgreen}p})^{x}}{\color {darkgreen}p},\quad {\color {red}x}\in \operatorname {supp} (X)=\{0,1,2,\dotsc \}$ ^[5] 这是遵循几何分布的随机变量的概率质量函数。

定义

定义.（几何分布）

${\color {green}\operatorname {Geo} (0.2)},{\color {blue}\operatorname {Geo} (0.5)}$ 和 ${\color {red}\operatorname {Geo} (0.8)}$ 的概率质量函数。

如果随机变量 $X$ 遵循 几何分布，且其 成功概率 为 ${\color {darkgreen}p}$ ，记作 $X\sim \operatorname {Geo} ({\color {darkgreen}p})$ ，那么它的概率质量函数为 $f({\color {red}x};{\color {darkgreen}p})={\color {red}(1-{\color {darkgreen}p})^{x}}{\color {darkgreen}p},\quad {\color {red}x}\in \operatorname {supp} (X)=\{0,1,2,\dotsc \}.$

备注。

从 $f(0;{\color {darkgreen}p})$ 开始的概率序列，随着输入值 ${\color {red}x}$ 一次又一次地增加（即 ${\color {darkgreen}p},{\color {red}(1-{\color {darkgreen}p})}{\color {darkgreen}p},{\color {red}(1-{\color {darkgreen}p})^{2}}{\color {darkgreen}p},\dotsc$ ）是一个 等比数列，因此得名 “几何分布”。
对于另一种定义，pmf 则为 $(1-p)^{x-1}p$ ，这是概率 $\mathbb {P} (\{x{\text{ trials before first success}}\})$ ，其支持为 $\operatorname {supp} (X)=\{1,2,\dotsc \}$ .

命题。（几何分布的无记忆性）如果 $X\sim \operatorname {Geo} (p)$ ，则 $\mathbb {P} (X>m+n|X\geq m)=\mathbb {P} (X>n)$ 对于每个非负整数 $m$ 和 $n$ 成立。

证明。 ${\begin{aligned}\mathbb {P} (X>m+n|X\geq m)&{\overset {\text{ def }}{=}}{\frac {\mathbb {P} (\overbrace {X>m+n\cap X\geq m)} ^{=X>m+n}}{\mathbb {P} (X\geq m)}}\\&{\overset {\text{ def }}{=}}{\frac {{\cancel {p}}\left((1-p)^{m+n+1}+(1-p)^{m+n+2}+\dotsb \right)}{{\cancel {p}}\left((1-p)^{m}+(1-p)^{m+1}+\dotsb \right)}}\\&={\frac {(1-p)^{{\cancel {m}}+n+1}{\cancel {/{\big (}1-(1-p){\big )}}}}{{\cancel {(1-p)^{m}}}{\cancel {/{\big (}1-(1-p){\big )}}}}}&{\text{by geometric series formula}}\\&=(1-p)^{n+1}\cdot {\frac {\color {darkgreen}p}{\color {blue}p}}\\&={\color {darkgreen}p}\cdot {\frac {(1-p)^{n+1}}{\color {blue}1-(1-p)}}\\&={\color {darkgreen}p}\left((1-p)^{n+1}+(1-p)^{n+2}+\dotsb \right)&{\text{by geometric series formula}}\\&{\overset {\text{ def }}{=}}\mathbb {P} (X>n)&{\text{since }}X>n\Leftrightarrow X=n+1,n+2,\dotsc .\\\end{aligned}}$

特别地， $X>m+n\cap X\geq m=X>m+n$ 因为 $\underbrace {X>m+n} _{X=m+n+1,m+n+2,\dotsc }\subsetneq \underbrace {X\geq m} _{X=m,m+1,\dotsc }$ .

$\Box$

备注。

$X>m+n$ 可以解释为'在第一次成功之前有超过 $m+n$ 次失败'。
$X\geq m$ 可以解释为“ $m$ 次失败已经发生，所以第一次成功之前至少有 $m$ 次失败”。
这意味着条件 $X\geq m$ 不会影响第一次成功之前剩余失败次数的分布（它仍然遵循具有相同成功概率的几何分布）。
因此，我们可以假设在发生失败的任意试验之后，试验从头开始。

例如，如果第一次试验失败，那么第一次成功之前剩余失败次数的分布不受影响。
同样，如果第一次试验成功，那么条件变为 $X=0$ ，而不是 $X\geq m$ ，所以上述公式在这种情况下不适用。

事实上， $\mathbb {P} (X>m+n|X=0)=0$ ，因为给定 $X=0$ ， $X$ 不能超过零。

负二项分布

动机

Consider a sequence of independent Bernoulli trials with success probability ${\color {darkgreen}p}$ . We would like to calculate the probability $\mathbb {P} (\{{\color {red}x}{\text{ failures before }}{\color {darkgreen}k}{\text{th success}}\})$ . By considering this sequence of outcomes: $\overbrace {{\color {red}\underbrace {F\cdots F} _{x_{1}{\text{ failures}}}}{\color {darkgreen}S}{\color {red}\underbrace {F\cdots F} _{x_{2}{\text{ failures}}}}{\color {darkgreen}S}\cdots {\color {red}\underbrace {F\cdots F} _{x_{k}{\text{ failures}}}}} ^{{\color {red}x}+{\color {darkgreen}k}-1{\text{ trials}}}{\color {darkgreen}\overbrace {S} ^{k{\text{th success}}}},\quad {\color {red}x_{1}}+{\color {red}x_{2}}+\dotsb +{\color {red}x_{k}}={\color {red}x},$ we can calculate that $\mathbb {P} (\{{\color {red}x}{\text{ failures before }}{\color {darkgreen}k}{\text{th success}}\})={\color {red}(1-{\color {darkgreen}p})^{x}}{\color {darkgreen}p^{k}},\quad {\color {red}x}\in \operatorname {supp} (X)=\{0,1,2,\dotsc \}.$ Since the probability of other sequences with some of ${\color {red}x}$ failures occuring in other trials (and some of ${\color {darkgreen}k}-1$ successes (excluding the ${\color {darkgreen}k}$ th success, which must occur in the last trial) occuring in other trials), is the same, and there are ${\binom {{\color {red}x}+{\color {darkgreen}k}-1}{\color {red}x}}$ (or ${\binom {{\color {red}x}+{\color {darkgreen}k}-1}{{\color {green}k}-1}}$ , which is the same numerically) distinct possible sequences ^[6], $\mathbb {P} (\{{\color {red}x}{\text{ failures before }}{\color {darkgreen}k}{\text{th success}}\})={\binom {{\color {red}x}+{\color {darkgreen}k}-1}{\color {red}x}}{\color {red}(1-{\color {darkgreen}p})^{x}}{\color {darkgreen}p^{k}},\quad {\color {red}x}\in \operatorname {supp} (X)=\{0,1,2,\dotsc \}.$ This is the pmf of a random variable following the negative binomial distribution.

定义

定义. (负二项分布)

一个随机变量 $X$ 遵循 负二项分布，其 成功概率 为 ${\color {darkgreen}p}$ ，记为 $X\sim \operatorname {NB} ({\color {darkgreen}k,p})$ ，如果其概率质量函数（pmf）为 $f({\color {red}x};{\color {darkgreen}k,p})={\binom {{\color {red}x}+{\color {darkgreen}k}-1}{\color {red}x}}{\color {red}(1-{\color {darkgreen}p})^{x}}{\color {darkgreen}p^{k}},\quad {\color {red}x}\in \operatorname {supp} (X)=\{0,1,2,\dotsc \}.$

备注。

负二项 系数参与其中，因此称为“负二项 分布”。

超几何分布

动机

考虑从一个大小为 $N$ 的总体中，不放回地抽取大小为 $n$ 的样本，该总体包含 $K$ 个类型 1 的物体和 $N-K$ 个其他类型的物体。那么， $\mathbb {P} (\{k{\text{ type 1 objects are found when }}n{\text{ objects are drawn from }}N{\text{ objects}}\})=\underbrace {\binom {K}{k}} _{\text{type 1}}\overbrace {\binom {N-K}{n-k}} ^{\text{another type}}{\bigg /}\underbrace {\binom {N}{n}} _{\text{all outcomes}},\quad k\in {\big \{}\max\{n-N+K,0\},\dotsc ,\min {\{K,n\}}{\big \}}$ ^[7].

${\binom {K}{k}}$ : 从 $K$ 个（可区分的）类型 1 的对象中，无放回地选择 $k$ 个对象的无序选择。
${\binom {N-K}{n-k}}$ : 从 $N-K$ 个（可区分的）其他类型的对象中，无放回地选择 $n-k$ 个对象的无序选择。
${\binom {N}{n}}$ : 从 $N$ 个（可区分的）对象中，无放回地选择 $n$ 个对象的无序选择。

这是遵循 超几何分布 的随机变量的概率质量函数。

定义

定义。 （超几何分布）

${\color {blue}\operatorname {HypGeo} (500,50,100)},{\color {darkgreen}\operatorname {HypGeo} (500,60,200)}$ 和 ${\color {red}\operatorname {HypGeo} (500,70,300)}$ 的概率质量函数。

随机变量 $X$ 服从 超几何分布，从包含 $K$ 个类型 1 的对象和 $N-K$ 个其他类型对象的集合中抽取 $n$ 个对象，记为 $X\sim \operatorname {HypGeo} (N,K,n)$ ，如果它的概率质量函数是 $f(k;N,K,n)={\binom {K}{k}}{\binom {N-K}{n-k}}{\bigg /}{\binom {N}{n}},\quad k\in \operatorname {supp} (X)={\big \{}\max\{n-N+K,0\},\dotsc ,\min {\{K,n\}}{\big \}}.$

${\color {blue}\operatorname {HypGeo} (500,50,100)},{\color {darkgreen}\operatorname {HypGeo} (500,60,200)}$ 和 ${\color {red}\operatorname {HypGeo} (500,70,300)}$ 的累积分布函数。

备注。

概率质量函数有点类似于 超几何 级数 ^[8]，因此得名 “超几何 分布”。

有限离散分布

这种类型的分布是所有具有有限支撑的离散分布的推广，例如伯努利分布和超几何分布。

这种类型的分布的另一个特例是 离散均匀分布，它类似于 连续均匀分布（将在后面讨论）。

定义。 （有限离散分布）随机变量 $X$ 遵循 有限离散分布，其向量为 $\mathbf {x} =(x_{1},\dotsc ,x_{n})^{T}$ ，概率向量为 $\mathbf {p} =(p_{1},\dotsc ,p_{n})^{T},\quad p_{1},\dotsc ,{\text{ and }}p_{n}\geq 0,p_{1}+\dotsb +p_{n}=1$ ，表示为 $X\sim \operatorname {FD} (\mathbf {x} ,\mathbf {p} )$ ，如果其概率质量函数为 $f(x_{i};\mathbf {p} )=p_{i},\quad i=1,\dotsc ,{\text{ or }}n.$

备注。

对于均值和方差，我们可以直接根据定义进行计算。有限离散分布没有特殊的公式。

定义。 （离散均匀分布）离散均匀分布，表示为 $\operatorname {D} {\mathcal {U}}\{x_{1},\dotsc ,x_{n}\}$ ，是 $\operatorname {FD} (\mathbf {x} ,\mathbf {p} ),\quad \mathbf {p} ={\bigg (}\underbrace {{\frac {1}{n}},\dotsc ,{\frac {1}{n}}} _{n{\text{ times}}}{\bigg )}^{T}$ .

备注。

其概率质量函数为 $f(x_{i})={\frac {1}{n}},\quad i=1,\dotsc ,{\text{ or }}n.$

示例。 假设随机变量 $X\sim \operatorname {FD} {\big (}(1,2,3)^{T},(0.2,0.3,0.5)^{T}{\big )}$ 。那么， $\mathbb {P} (X=1)=0.2,\mathbb {P} (X=2)=0.3,{\text{ and }}\mathbb {P} (X=3)=0.5.$ 概率质量函数的图形

|
|              *
|              |
|         *    |
|    *    |    |
|    |    |    |
*----*----*----*-------
     1    2    3

示例。 假设一个随机变量 $X\sim \operatorname {D} {\mathcal {U}}\{1,2,3\}$ . 那么， $\mathbb {P} (X=1)=\mathbb {P} (X=2)=\mathbb {P} (X=3)={\frac {1}{3}}.$ 概率质量函数的示例

|
|               
|               
|    *    *    *
|    |    |    |
|    |    |    |
*----*----*----*-------
     1    2    3

练习

练习。

连续随机变量的分布

均匀分布 (连续)

连续均匀分布 是对“无偏好”的建模，即其支持域上所有相同长度的区间都是 等概率 ^[9] （可以从对应连续均匀分布的概率密度函数 (pdf) 中看出）。此外还有离散均匀分布，但它不像连续均匀分布那么重要。因此，从现在开始，简称为“均匀分布”指的是连续均匀分布，而不是离散均匀分布。

定义。 (均匀分布)

一个随机变量 $X$ 遵循 均匀分布，记为 $X\sim {\mathcal {U}}[a,b]$ ，如果其概率密度函数 (pdf) 为 $f(x)=1/(b-a),\quad x\in \operatorname {supp} (X)=[a,b],{\text{ and }}a\leq b.$

备注。

${\mathcal {U}}[a,b]$ 的支持域也可以是 $[a,b),(a,b]$ 或 $(a,b)$ ，而不会影响事件的概率，因为使用 pdf 在单个点上计算的概率无论如何都是零。
分布 ${\mathcal {U}}[0,1]$ 是 标准均匀分布。

命题。

(均匀分布的累积分布函数) ${\mathcal {U}}[a,b]$ 的累积分布函数为 $F(x)={\begin{cases}0,&x<a;\\(x-a)/(b-a),&a\leq x\leq b;\\1,&x>b.\end{cases}}$

证明： $F(x)=\int _{-\infty }^{x}{\frac {\mathbf {1} \{a\leq x\leq b\}}{b-a}}\,dy={\frac {1}{b-a}}\int _{a}^{x}\mathbf {1} \{a\leq x\leq b\}\,dy={\begin{cases}0/(b-a),&x<a;\\[][y]_{a}^{x}/(b-a),&a\leq x\leq b;\\[][y]_{a}^{b}/(b-a),&x>b.\end{cases}}$ 因此，结果成立。

$\Box$

指数分布

具有速率参数 $\lambda$ 的指数分布通常用于描述速率为 $\lambda$ 的罕见事件的到达间隔时间。

将此与泊松分布进行比较，指数分布描述了罕见事件的到达间隔时间，而泊松分布描述了固定时间间隔内罕见事件的发生次数。

根据速率的定义，当速率 $\uparrow$ 时，到达间隔时间 $\downarrow$ （即罕见事件的频率 $\uparrow$ ）。

因此，我们希望当 $\lambda \uparrow$ （即 pdf 在较小的 $x$ 处具有更高的值，当 $\lambda \uparrow$ ）时，pdf 在包含较小 $x$ 值的区间的面积 $\uparrow$ 当 $\lambda \uparrow$ 。

此外，由于在固定速率 $\lambda$ 下，到达时间间隔越长发生的可能性越小。因此，直观地，我们也希望 pdf 是一个严格的递减函数，这样发生的概率（pdf 在某个区间内的面积） $\downarrow$ 当 $x\uparrow$ 。

我们可以看到，指数分布的 pdf 满足这两个性质。

定义。（指数分布）

一个随机变量 $X$ 服从参数为正速率 $\lambda$ 的 指数分布，记为 $X\sim \operatorname {Exp} (\lambda )$ ，如果其 pdf 为 $f(x)=\lambda e^{-\lambda x},\quad x\in \operatorname {supp} (X)=[0,\infty ).$

命题。（指数分布的 cdf）

$\operatorname {Exp} (\lambda )$ 的累积分布函数 (CDF) 为 $F(x)=1-e^{-\lambda x},\quad x\geq 0.$

证明： 假设 $X\sim \operatorname {Exp} (\lambda )$ 。 $X$ 的累积分布函数 (CDF) 为 ${\begin{aligned}F(x)&=\int _{-\infty }^{x}\lambda e^{-\lambda y}\mathbf {1} \{y\geq 0\}\,dy\\&={\begin{cases}\int _{0}^{x}\lambda e^{-\lambda y}\,dy,&x\geq 0;\\0,&x<0\\\end{cases}}&\left({\text{当 }}x<0,x\notin \operatorname {supp} (X),{\text{ 因此 }}F(x)=\mathbb {P} (X\leq x)=0\right)\\&=\mathbf {1} \{x\geq 0\}\lambda \int _{0}^{x}e^{-\lambda y}\,dy\\&=\mathbf {1} \{x\geq 0\}{\frac {\lambda }{-\lambda }}[e^{-\lambda }y]_{0}^{x}\\&=-\mathbf {1} \{x\geq 0\}(e^{-\lambda x}-1)\\&=(1-e^{-\lambda x})\mathbf {1} \{x\geq 0\}.\\\end{aligned}}$

$\Box$

命题。 （指数分布的无记忆性）如果 $X\sim \operatorname {Exp} (\lambda )$ ，则 $\mathbb {P} (X>s+t|X>s)=\mathbb {P} (X>t)$ 对每个非负数 $s$ 和 $t$ 成立。

证明。 $\mathbb {P} (X>s+t|X>s){\overset {\text{ def }}{=}}{\frac {\mathbb {P} (X>s+t\cap X>s)}{\mathbb {P} (X>s)}}={\frac {\mathbb {P} (X>s+t)}{\mathbb {P} (X>s)}}={\frac {1-(1-e^{-\lambda (s+t)})}{1-(1-e^{-\lambda s})}}={\frac {e^{-\lambda (s+t)}}{e^{-\lambda s}}}=e^{-\lambda t}=\mathbb {P} (X>t).$

$\Box$

备注。

$X>s+t$ 可以解释为“罕见事件将在接下来的 $t$ 个时间单位内不会发生”；
$X>s$ 可以解释为“罕见事件在过去的 $s$ 个时间单位内没有发生”。
这意味着条件 $X>s$ 不会影响剩余等待罕见事件的等待时间的分布（它仍然遵循具有相同参数的指数分布）。
因此，我们可以假设事件的到达过程在观察的任意时间点 重新开始。

伽马分布

伽马分布是广义的指数分布，从某种意义上说，我们也可以改变形状的指数分布的 pdf。

定义。 （伽马分布）

随机变量 $X$ 服从 伽玛分布，其中形状参数为正数 $\alpha$ ，速率参数为正数 $\lambda$ ，记为 $X\sim \operatorname {Gamma} (\alpha ,\lambda )$ ，如果其 PDF 为 $f(x)={\frac {\lambda ^{\alpha }x^{\alpha -1}e^{-\lambda x}}{\Gamma (\alpha )}},\quad x\in \operatorname {supp} (X)=[0,\infty ).$

备注。

$\operatorname {Gamma} (1,\lambda )\equiv \operatorname {Exp} (\lambda )$ ，因为 $\operatorname {Gamma} (1,\lambda )$ 的 PDF 为

$f(x)={\frac {\lambda x^{1-1}e^{-\lambda }}{\underbrace {\Gamma (1)} _{=0!=1}}}\mathbf {1} \{x\geq 0\}=\lambda e^{-\lambda x},$

这是

\operatorname {Exp} (\lambda )

的 PDF。

贝塔分布

贝塔分布是 ${\mathcal {U}}[0,1]$ 的推广，因为我们可以通过使用 两个形状参数 来改变 PDF 的形状。

定义。 （贝塔分布）

随机变量 $X$ 服从 beta 分布，其正形状参数为 $\alpha$ 和 $\beta$ ，记为 $X\sim \operatorname {Beta} (\alpha ,\beta )$ ，如果其 pdf 为 $f(x)={\frac {\Gamma (\alpha +\beta )}{\Gamma (\alpha )\Gamma (\beta )}}x^{\alpha -1}(1-x)^{\beta -1},\quad x\in \operatorname {supp} (X)=[0,1].$

备注。

$\operatorname {Beta} (1,1)\equiv {\mathcal {U}}[0,1]$ ，因为 $\operatorname {Beta} (1,1)$ 的 pdf 为

$f(x)={\frac {\overbrace {\Gamma (2)} ^{=1!=1}}{\underbrace {\Gamma (1)} _{=0!=1}\Gamma (1)}}x^{1-1}(1-x)^{1-1}\mathbf {1} \{0\leq x\leq 1\}=\mathbf {1} \{0\leq x\leq 1\},$

它是

{\mathcal {U}}[0,1]

的概率密度函数。

柯西分布

柯西分布是重尾分布 ^[10]。因此，它是一个“病态”分布，因为它具有一些反直觉的性质，例如，尽管它的均值和方差从其图像直接看似乎是定义好的，但实际上它的均值和方差是未定义的。

定义。 （柯西分布）

随机变量 $X$ 服从 柯西分布，其位置参数为 $\theta$ ，记作 $X\sim \operatorname {Cauchy} (\theta )$ ，如果它的概率密度函数为 $f(x)={\frac {1}{\pi (1+(x-\theta )^{2})}},\quad x\in \operatorname {supp} (X)=\mathbb {R} .$

备注。

这个定义指的是柯西分布的特例。更准确地说，柯西分布的完整定义中还包含一个尺度参数，这里概率密度函数中的尺度参数被设置为 1。

为了简化起见，这里采用此定义。

由于 $f(\theta +x)=f(\theta -x)$ ，所以概率密度函数关于 $\theta$ 对称。

正态分布（非常重要）

正态分布或高斯分布是自然界中常见的现象，非常奇妙。这可能是因为根据 中心极限定理，样本均值或样本总和通常近似服从正态分布。因此，正态分布在统计学中非常重要。

定义。 （正态分布）

如果一个随机变量 $X$ 服从 正态分布，其均值为 $\mu$ ，方差为 $\sigma ^{2}$ ，记为 $X\sim {\mathcal {N}}(\mu ,\sigma ^{2})$ ，则其 PDF 为 $f(x)={\frac {1}{\sqrt {2\pi \sigma ^{2}}}}\exp \left(-{\frac {(x-\mu )^{2}}{2\sigma ^{2}}}\right),\quad x\in \operatorname {supp} (X)=\mathbb {R} .$

备注。

分布 ${\mathcal {N}}(0,1)$ 是标准正态分布。

对于 ${\mathcal {N}}(0,1)$ ，其 PDF 通常记为 $\varphi (\cdot )$ ，其 CDF 通常记为 $\Phi (\cdot )$ 。
当 ${\mathcal {N}}(0,1)$ 为概率密度函数时， $\varphi (x)={\frac {1}{\sqrt {2\pi }}}e^{-x^{2}/2}$ .
因此， ${\mathcal {N}}(\mu ,\sigma ^{2})$ 的概率密度函数为 $(1/\sigma )\varphi (x-\mu /\sigma )$ .

我们将会证明 $\mu$ 实际上是均值，而 $\sigma$ 实际上是方差.
该概率密度函数关于 $\mu$ 对称，因为 $f(\mu +x)=f(\mu -x)$ .

命题. (正态分布随机变量的线性变换分布) 如果 $X\sim {\mathcal {N}}(\mu ,\sigma ^{2})$ ，并且 ${\color {blue}a}$ 和 ${\color {red}b}$ 是常数，那么 $Y={\color {blue}a}X+{\color {red}b}\sim {\mathcal {N}}({\color {blue}a}\mu +{\color {red}b},{\color {blue}a^{2}}\sigma ^{2})$ .

证明。 假设 $a>0$ ^[11]. 令 $F_{X}$ 和 $F_{Y}$ 分别为 $X$ 和 $Y$ 的累积分布函数。由于 $F_{Y}(y)=\mathbb {P} (Y\leq y)=\mathbb {P} ({\color {blue}a}X+{\color {red}b}\leq y)=\mathbb {P} (X\leq (y-{\color {red}b})/{\color {blue}a})=F_{X}{\big (}(y-{\color {red}b})/{\color {blue}a}{\big )},$ 通过微分， ${\begin{aligned}f_{Y}(y)&={\frac {1}{\color {blue}a}}f_{X}{\big (}(y-{\color {red}b})/{\color {blue}a}{\big )}\\&={\frac {1}{{\color {blue}a}{\sqrt {2\pi \sigma ^{2}}}}}\exp \left(-{\big (}(y-{\color {red}b})/{\color {blue}a}-\mu {\big )}^{2}/2\sigma ^{2}\right)\\&={\frac {1}{\sqrt {2\pi {\color {blue}a^{2}}\sigma ^{2}}}}\exp \left(-{\big (}y-({\color {blue}a}\mu +{\color {red}b}){\big )}^{2}/2{\color {blue}a^{2}}\sigma ^{2}\right)&\quad {\text{since }}a>0,\\\end{aligned}}$ 这是 ${\mathcal {N}}({\color {blue}a}\mu +{\color {red}b},{\color {blue}a^{2}}\sigma ^{2})$ 的概率密度函数。

$\Box$

备注。

一个特殊情况是当 $a=1/\sigma$ 且 $b=-\mu /\sigma$ ， $Y=aX+b=(X-\mu )/\sigma \sim {\mathcal {N}}(0,1)$ ，因为
$a\mu +b=(1/\sigma )\mu -\mu /\sigma =0$ ;
$a^{2}\sigma ^{2}=\sigma ^{2}/\sigma ^{2}=1$ .
这表明我们可以将每个服从正态分布的随机变量转换为服从标准正态分布的随机变量。
这可以简化与正态分布随机变量相关的概率计算，因为我们有 标准正态分布表，其中给出了不同 $x$ 下 $\Phi (x)$ 的值。
对于某些类型的标准正态分布表，只给出了不同非负 $x$ 下 $\Phi (x)$ 的值。
然后，我们可以使用以下公式计算不同负 $x$ 下的值：

$\Phi (-x)=1-\Phi (x).$

此公式成立，因为 ${\begin{aligned}&&\phi (-y)&=\phi (y)\\&\Leftrightarrow &\int _{-\infty }^{x}\phi (-y)\,dy&=\int _{-\infty }^{x}\phi (y)\,dy\\&\Leftrightarrow &-\int _{\infty }^{-x}\phi (u)\,du&=\Phi (x)&{\text{let }}u=-y\Rightarrow dy=-dy.\\&\Leftrightarrow &[\Phi (u)]_{-x}^{\infty }&=\Phi (x)\\&\Leftrightarrow &\underbrace {\Phi (\infty )} _{=\mathbb {P} (\Omega )=1}-\Phi (-x)&=\Phi (x).\end{aligned}}$

统计学中重要的分布，尤其是

以下分布在统计学中尤为重要，它们都与正态分布相关。我们将简要介绍它们。

卡方分布

卡方分布是伽马分布的一个特例，也与标准正态分布相关。

定义. （卡方分布）

具有正的自由度 ${\color {blue}\nu }$ 的卡方分布，记为 $\chi _{\color {blue}\nu }^{2}$ ，是 $Z_{1}^{2}+\dotsb +Z_{\color {blue}\nu }^{2}$ 的分布，其中 $Z_{1},\dotsc ,Z_{\color {blue}\nu }$ 独立同分布，且它们都服从 ${\mathcal {N}}(0,1)$ .

备注。

可以证明 $\chi _{\color {blue}\nu }^{2}\equiv \operatorname {Gamma} ({\color {blue}\nu }/2,1/2)$ ，因此 $\operatorname {Gamma} (\alpha ,\lambda )\equiv {\frac {1}{2\lambda }}\chi _{2\alpha }^{2}$ 。（然后，我们可以通过这个推导出 $\chi _{\nu }^{2}$ 的概率密度函数。）
这意味着对于随机变量 $X\sim \chi _{2\alpha }^{2}$ ， ${\frac {X}{2\lambda }}\sim \operatorname {Gamma} (\alpha ,\lambda )$ .
一个随机变量 $X$ 遵循具有 ${\color {blue}\nu }$ 个自由度的卡方分布，表示为 $X\sim \chi _{\color {blue}\nu }^{2}$ .

学生 t 分布

学生 $t$ -分布 与卡方分布和正态分布有关。

定义。（学生 $t$ -分布）

具有 ${\color {blue}\nu }$ 个自由度的 学生 $t$ -分布，表示为 $t_{\color {blue}\nu }$ ，是 ${\frac {Z}{\sqrt {Y/{\color {blue}\nu }}}}$ 的分布，其中 $Y\sim \chi _{\color {blue}\nu }^{2}$ 和 $Z\sim {\mathcal {N}}(0,1)$ .

备注。

$t_{1}=\operatorname {Cauchy} (0)$ 和 $t_{\infty }={\mathcal {N}}(0,1)$ （ $\infty$ 是扩展实数）。
当 ${\color {blue}\nu }\downarrow$ 时，pdf 的尾部更重。
一个随机变量 $X$ 服从 (学生) $t$ -分布 ，自由度为 ${\color {blue}\nu }$ ，记为 $X\sim t_{\color {blue}\nu }$ 。
可以证明， $t_{\color {blue}\nu }$ 的pdf 为

$f(x;{\color {blue}\nu })={\frac {\Gamma {\big (}({\color {blue}\nu }+1)/2{\big )}}{{\sqrt {{\color {blue}\nu }\pi }}\Gamma ({\color {blue}\nu }/2)}}\left({\frac {\color {blue}\nu }{x^{2}+{\color {blue}\nu }}}\right)^{({\color {blue}\nu }+1)/2}.$

F-分布

F 分布是广义的学生 t 分布，因为它的参数比学生 t 分布多一个自由度。

定义. ( $F$ -分布) 带有 ${\color {red}\nu _{1}}$ 和 ${\color {blue}\nu _{2}}$ 个自由度的 $F$ -分布，记为 $F_{{\color {red}\nu _{1}},{\color {blue}\nu _{2}}}}$ ，是 ${\frac {X_{1}/{\color {red}\nu _{1}}}{X_{2}/{\color {blue}\nu _{2}}}}$ 的分布，其中 $X_{1}\sim \chi _{\color {red}\nu _{1}}^{2}$ 和 $X_{2}\sim \chi _{\color {blue}\nu _{2}}^{2}$ .

备注。

$F_{1,\nu }=t_{\nu }^{\color {purple}2}$ .
服从 $F$ -分布 的随机变量 $X$ ，其自由度分别为 ${\color {red}\nu _{1}}$ 和 ${\color {blue}\nu _{2}}$ ，记为 $X\sim F_{{\color {red}\nu _{1}},{\color {blue}\nu _{2}}}$ .
可以证明， $F_{{\color {red}\nu _{1}},{\color {blue}\nu _{2}}}$ 的概率密度函数为

$f(x;{\color {red}\nu _{1}},{\color {blue}\nu _{2}})={\frac {\Gamma {\big (}({\color {red}\nu _{1}}+{\color {blue}\nu _{2}})/2{\big )}{\color {red}\nu _{1}}^{{\color {red}\nu _{1}}/2}{\color {blue}\nu _{2}}^{{\color {blue}\nu _{2}}/2}}{\Gamma ({\color {red}\nu _{1}}/2)\Gamma ({\color {blue}\nu _{2}}/2)}}\cdot {\frac {x^{{\color {red}\nu _{1}}/2-1}}{({\color {blue}\nu _{2}}+{\color {red}\nu _{1}}x)^{({\color {red}\nu _{1}}+{\color {blue}\nu _{2}})/2}}}.$

如果您想知道 卡方分布、学生 $t$ -分布 和 $F$ -分布 在统计学中的应用，可以参考 Statistics/Interval Estimation（置信区间构建中的应用）和 Statistics/Hypothesis Testing（假设检验中的应用）。

联合分布

多项式分布

动机

多项式分布是 推广的 二项式分布，区别在于每次试验的结果不止两种。

假设有 $n$ 个物体要分配到 $k$ 个单元格中，每个物体独立分配到 一个且只有一个 单元格，分配到第 $i$ 个单元格的概率为 $p_{i}$ ( $i=1,2,\dotsc ,k$ ) ^[12]。令 $X_{i}$ 为分配到第 $i$ 个单元格的物体数量。我们想计算概率 $\mathbb {P} {\big (}\mathbf {X} {\overset {\text{ def }}{=}}(X_{1},\dotsc ,X_{k})^{T}=\mathbf {x} {\overset {\text{ def }}{=}}(x_{1},\dotsc ,x_{k})^{T}{\big )}$ ，即第 $i$ 个单元格有 $x_{i}$ 个物体的概率。

我们可以将每次分配视为一个独立的试验，有 $k$ 种结果（因为它可以分配到 $k$ 个单元格中的一个且只有一个）。我们可以认识到，分配 $n$ 个物体是将 $n$ 个物体划分成 $k$ 组。因此，有 ${\binom {n}{x_{1},\dotsc ,x_{k}}}$ 种分配方式。

所以， $\mathbb {P} (\mathbf {X} =\mathbf {x} )={\binom {n}{x_{1},\dotsc ,x_{k}}}p_{1}^{x_{1}}\dotsb p_{k}^{x_{k}}.$ 尤其，分配给 $x_{i}$ 个对象的概率 $i$ 个单元格是 $p_{i}^{x_{i}}$ ，这是由于独立性，因此分配给 $n$ 个对象到 $k$ 个单元格的特定情况的概率是 $p_{1}^{x_{1}}\dotsb p_{k}^{x_{k}}$ ，这是由于独立性。

定义

定义。（多项式分布）随机向量 $\mathbf {X} =(X_{1},\dotsc ,X_{k})^{T}$ 服从多项式分布，其中有 $n$ 次试验和概率向量 $\mathbf {p} =(p_{1},\dotsc ,p_{k})^{T}$ ，记为 $\mathbf {X} \sim \operatorname {Multinom} (n,\mathbf {p} )$ ，如果它的联合概率质量函数为 $f_{\mathbf {X} }(x_{1},\dotsc ,x_{k};n,\mathbf {p} )={\binom {n}{x_{1},\dotsc ,x_{k}}}p_{1}^{x_{1}}\dotsb p_{k}^{x_{k}},\quad x_{1},\dotsc ,x_{k}\geq 0,{\text{ and }}x_{1}+\dotsb +x_{k}=n.$

备注。

$\operatorname {Multinom} (n,\mathbf {p} )\equiv \operatorname {Binom} (n,p)$ 如果 $\mathbf {p} =(p,1-p)^{T}$ .

在这种情况下，如果 $(X_{1},X_{2})^{T}\sim \operatorname {Multinom} (n,\mathbf {p} )$ ， $X_{1}$ 是二项分布的成功次数（而 $X_{2}(=n-X_{1})$ 是失败次数）。

此外， $X_{i}\sim \operatorname {Binom} (n,p_{i})$ 。通过将对象分配到 $i$ 个单元格中，并将每个单一对象的分配视为“成功”，可以看出这一点^[13]。然后，成功概率是 $p_{i}$ .

多元正态分布

多元正态分布正如其名称所暗示的那样，是正态分布（单变量）的多变量（也是广义）版本。

Definition. (Multivariate normal distribution) A random vector $\mathbf {X} =(X_{1},\dotsc ,X_{k})^{T}$ follows the $k$ -dimensional normal distribution with mean vector ${\boldsymbol {\mu }}$ and covariance matrix ${\boldsymbol {\Sigma }}$ , denoted by $\mathbf {X} \sim {\mathcal {N}}_{k}({\boldsymbol {\mu }},{\boldsymbol {\Sigma }})$ ^[14] if its joint pdf is $f_{\mathbf {X} }(x_{1},\dotsc ,x_{k};{\boldsymbol {\mu }},{\boldsymbol {\Sigma }})={\frac {\exp \left(-(\mathbf {x} -{\boldsymbol {\mu }})^{T}{\boldsymbol {\Sigma }}^{-1}(\mathbf {x} -{\boldsymbol {\mu }})/2\right)}{\sqrt {(2\pi )^{k}\det {\boldsymbol {\Sigma }}}}},\quad \mathbf {x} =(x_{1},\dotsc ,x_{k})^{T}\in \mathbb {R} ^{k}$ in which ${\boldsymbol {\mu }}=(\mu _{1},\dotsc ,\mu _{k})^{T}=(\mathbb {E} [X_{1}],\dotsc ,\mathbb {E} [X_{k}])^{T}$ is the mean vector, and ${\boldsymbol {\Sigma }}={\begin{pmatrix}\operatorname {Cov} (X_{1},X_{1})&\cdots &\operatorname {Cov} (X_{1},X_{k})\\\vdots &\ddots &\vdots \\\operatorname {Cov} (X_{k},X_{1})&\cdots &\operatorname {Cov} (X_{k},X_{k})\end{pmatrix}}={\begin{pmatrix}\sigma _{1}^{2}&\cdots &\operatorname {Cov} (X_{1},X_{k})\\\vdots &\ddots &\vdots \\\operatorname {Cov} (X_{k},X_{1})&\cdots &\sigma _{k}^{2}\end{pmatrix}}$ is the covariance matrix (with size $k\times k$ ).

备注。

对于 $k=2$ 的情况，通常使用更常用的分布，称为 双变量正态 分布。
另一种等效的定义是 $\mathbf {X} =(X_{1},\dotsc ,X_{k})^{T}\sim {\mathcal {N}}_{k}({\boldsymbol {\mu }},{\boldsymbol {\Sigma }})$ 如果

${\begin{aligned}X_{1}&=a_{11}Z_{1}+\dotsb +a_{1n}Z_{n}+\mu _{1};\\\vdots \\X_{k}&=a_{k1}Z_{1}+\dotsb +a_{kn}Z_{n}+\mu _{k},\\\end{aligned}}$

对于某些常数

a_{11},\dotsc ,a_{1n},\dotsc ,a_{k1},\dotsc ,a_{kn},\mu _{1},\dotsc ,\mu _{k}

，而

Z_{1},\dotsc ,Z_{n}

是

n

个独立同分布的标准正态随机变量。

利用上述结果，边际分布， $X_{i}$ 遵循 ${\mathcal {N}}(\mu _{i},\sigma _{i}^{2}),\quad i=1,2,\dotsc ,{\text{ or }}k$ ，正如人们所期望的那样。

根据关于独立正态随机变量之和和正态随机变量线性变换分布的命题（参见概率/随机变量变换章），均值为 $0+\dotsb +0+\mu _{i}=\mu _{i}$ ，方差为 $a_{i1}^{2}+\dotsb +a_{in}^{2}$ （根据定义，它等于 $\sigma _{i}^{2}$ ）。

命题。（双变量正态分布的联合概率密度函数） ${\mathcal {N}}_{2}({\boldsymbol {\mu }},{\boldsymbol {\Sigma }})$ 的联合概率密度函数为 $f(x,y)={\frac {1}{2\pi \sigma _{X}\sigma _{Y}{\sqrt {1-\rho ^{2}}}}}\exp \left(-{\frac {1}{2(1-\rho ^{2})}}\left(\left({\frac {x-\mu _{X}}{\sigma _{X}}}\right)^{2}-2\rho \left({\frac {x-\mu _{X}}{\sigma _{X}}}\right)\left({\frac {y-\mu _{Y}}{\sigma _{Y}}}\right)+\left({\frac {y-\mu _{Y}}{\sigma _{Y}}}\right)^{2}\right)\right),\quad (x,y)^{T}\in \mathbb {R} ^{2}$

其中

\rho =\rho (X,Y)

且

\sigma _{X},\sigma _{Y}

为正数。

证明。对于双变量正态分布，

均值向量 为 ${\boldsymbol {\mu }}=(\mu _{X},\mu _{Y})$ ；
该 协方差矩阵 为 ${\boldsymbol {\Sigma }}={\begin{pmatrix}\operatorname {Cov} (X,X)&\operatorname {Cov} (X,Y)\\\operatorname {Cov} (Y,X)&\operatorname {Cov} (Y,Y)\end{pmatrix}}={\begin{pmatrix}\operatorname {Var} (X)&\operatorname {Cov} (X,Y)\\\operatorname {Cov} (X,Y)&\operatorname {Var} (Y)\\\end{pmatrix}}={\begin{pmatrix}\sigma _{X}^{2}&\rho \sigma _{X}\sigma _{Y}\\\rho \sigma _{X}\sigma _{Y}&\sigma _{Y}^{2}\\\end{pmatrix}}.$
因此，

${\begin{aligned}(\mathbf {x} -{\boldsymbol {\mu }})^{T}{\boldsymbol {\Sigma }}^{-1}(\mathbf {x} -{\boldsymbol {\mu }})&={\frac {1}{\det {\boldsymbol {\Sigma }}}}\left((x-\mu _{X},y-\mu _{Y})^{T}\right)^{T}{\begin{pmatrix}\sigma _{Y}^{2}&-\rho \sigma _{X}\sigma _{Y}\\-\rho \sigma _{X}\sigma _{Y}&\sigma _{X}^{2}\\\end{pmatrix}}(x-\mu _{X},y-\mu _{Y})^{T})\\&={\frac {1}{\det {\boldsymbol {\Sigma }}}}{\begin{pmatrix}{\color {blue}x-\mu _{X}}&{\color {red}y-\mu _{Y}}\end{pmatrix}}{\begin{pmatrix}{\color {darkgreen}\sigma _{Y}^{2}}&{\color {darkorange}-\rho \sigma _{X}\sigma _{Y}}\\{\color {purple}-\rho \sigma _{X}\sigma _{Y}}&{\color {maroon}\sigma _{X}^{2}}\\\end{pmatrix}}{\begin{pmatrix}x-\mu _{X}\\y-\mu _{Y}\end{pmatrix}}\\&={\frac {1}{\det {\boldsymbol {\Sigma }}}}{\begin{pmatrix}{\color {blue}(x-\mu _{X})}{\color {darkgreen}\sigma _{Y}^{2}}{\color {purple}-}{\color {red}(y-\mu _{Y})}{\color {purple}\rho \sigma _{X}\sigma _{Y}}&{\color {darkorange}-}{\color {blue}(x-\mu _{X})}{\color {darkorange}\rho \sigma _{X}\sigma _{Y}}+{\color {red}(y-\mu _{Y})}{\color {maroon}\sigma _{X}^{2}}\end{pmatrix}}{\begin{pmatrix}{\color {deeppink}x-\mu _{X}}\\{\color {deeppink}y-\mu _{Y}}\end{pmatrix}}\\&={\frac {1}{\underbrace {\det {\boldsymbol {\Sigma }}} _{\sigma _{X}^{2}\sigma _{Y}^{2}-(\rho \sigma _{X}\sigma _{Y})^{2}}}}{\big (}(x-\mu _{X})^{\color {deeppink}2}\sigma _{Y}^{2}\underbrace {-{\color {deeppink}(x-\mu _{X})}(y-\mu _{Y})\rho \sigma _{X}\sigma _{Y}-(x-\mu _{X}){\color {deeppink}(y-\mu _{Y})}\rho \sigma _{X}\sigma _{Y}} _{=-2\rho (x-\mu _{X})(y-\mu _{Y})\sigma _{X}\sigma _{Y}}+(y-\mu _{Y})^{\color {deeppink}2}\sigma _{X}^{2}{\big )}\\&={\frac {(x-\mu _{X})^{2}\sigma _{Y}^{2}-2\rho (x-\mu _{X})(y-\mu _{Y})\sigma _{X}\sigma _{Y}+(y-\mu _{Y})^{2}\sigma _{X}^{2}}{\sigma _{X}^{2}\sigma _{Y}^{2}(1-\rho )^{2}}}\\&={\frac {1}{1-\rho ^{2}}}\left(\left({\frac {x-\mu _{X}}{\sigma _{X}}}\right)^{2}-2\rho \left({\frac {(x-\mu _{X})(y-\mu _{Y})}{\sigma _{X}\sigma _{Y}}}\right)+\left({\frac {y-\mu _{Y}}{\sigma _{Y}}}\right)^{2}\right).\end{aligned}}$

由此可知，联合概率密度函数为

${\begin{aligned}f(x,y)&={\frac {1}{\sqrt {(2\pi )^{2}\det {\boldsymbol {\Sigma }}}}}\exp \left(-{\frac {1}{2}}\cdot {\frac {1}{1-\rho ^{2}}}\left(\left({\frac {x-\mu _{X}}{\sigma _{X}}}\right)^{2}-2\rho \left({\frac {(x-\mu _{X})(y-\mu _{Y})}{\sigma _{X}\sigma _{Y}}}\right)+\left({\frac {y-\mu _{Y}}{\sigma _{Y}}}\right)^{2}\right)\right)\\&={\frac {1}{2\pi {\sqrt {\sigma _{X}^{2}\sigma _{Y}^{2}(1-\rho ^{2})}}}}\exp \left({\frac {-1}{2(1-\rho ^{2})}}\left(\left({\frac {x-\mu _{X}}{\sigma _{X}}}\right)^{2}-2\rho \left({\frac {(x-\mu _{X})(y-\mu _{Y})}{\sigma _{X}\sigma _{Y}}}\right)+\left({\frac {y-\mu _{Y}}{\sigma _{Y}}}\right)^{2}\right)\right)\\&={\frac {1}{2\pi \sigma _{X}\sigma _{Y}{\sqrt {1-\rho ^{2}}}}}\exp \left({\frac {-1}{2(1-\rho ^{2})}}\left(\left({\frac {x-\mu _{X}}{\sigma _{X}}}\right)^{2}-2\rho \left({\frac {x-\mu _{X}}{\sigma _{X}}}\right)\left({\frac {y-\mu _{Y}}{\sigma _{Y}}}\right)+\left({\frac {y-\mu _{Y}}{\sigma _{Y}}}\right)^{2}\right)\right).\\\end{aligned}}$

$\Box$

随机变量

概率
重要分布

联合分布与独立性

↑ 或者，我们可以将事件定义为 $\{i{\text{th Bernoulli trial is a failure}}\}.$
↑ 'indpt.' 代表独立。
↑ 这是因为从 ${\color {blue}n}$ 次试验中（然后剩下的位置用于 '失败'）对（可区分且有序的） ${\color {darkgreen}r}$ 次试验进行无放回的无序选择，以获得 '成功'。
↑ 罕见事件的发生被视为 '成功'，罕见事件的未发生被视为 '失败'。
↑ 与二项分布的结果不同，每个 ${\color {red}x}$ 只有一个可能的序列。
↑ 从 ${\color {red}x}+{\color {darkgreen}k}-1$ 次试验中对 ${\color {red}x}$ 次试验进行无放回的无序选择，以获得 '失败'（或对 ${\color {darkgreen}k}-1$ 次试验进行无放回的无序选择，以获得 '成功'）。
↑ 对 $k$ 的限制是为了定义二项式系数，即表达式 '有意义'。实际上，我们很少直接使用这个条件。相反，我们通常直接确定 $x$ 的特定值是否 '有意义'。
↑ 这超出了本书的范围。
↑ 概率 '均匀分布在区间上'。
↑ 与其他轻尾分布（例如正态分布）相比，服从柯西分布的随机变量有较高的概率取极值。在图形上，pdf 的 '尾部'（即左端和右端）。
↑ 对于 $a<0$ 的情况类似（不等号方向相反，最终我们将有两个负号相互抵消）。当 $a=0$ 时，随机变量变成一个非随机常数，所以我们对这种情况不感兴趣。
↑ 然后， $p_{1}+p_{2}+\dotsb +p_{k}=1$ .
↑ 如果对象被分配到除 $i$ 个单元以外的单元，那么它就是 '失败'。
↑ ${\mathcal {N}}$ 的下标 $k$ 是为了强调该分布是 $k$ 维的，并且是可选的。

[1] 或者，我们可以将事件定义为 $\{i{\text{th Bernoulli trial is a failure}}\}.$

[2] 'indpt.' 代表独立。

[3] 这是因为从 ${\color {blue}n}$ 次试验中（然后剩下的位置用于 '失败'）对（可区分且有序的） ${\color {darkgreen}r}$ 次试验进行无放回的无序选择，以获得 '成功'。

[4] 罕见事件的发生被视为 '成功'，罕见事件的未发生被视为 '失败'。

[5] 与二项分布的结果不同，每个 ${\color {red}x}$ 只有一个可能的序列。

[6] 从 ${\color {red}x}+{\color {darkgreen}k}-1$ 次试验中对 ${\color {red}x}$ 次试验进行无放回的无序选择，以获得 '失败'（或对 ${\color {darkgreen}k}-1$ 次试验进行无放回的无序选择，以获得 '成功'）。

[7] 对 $k$ 的限制是为了定义二项式系数，即表达式 '有意义'。实际上，我们很少直接使用这个条件。相反，我们通常直接确定 $x$ 的特定值是否 '有意义'。

[8] 这超出了本书的范围。

[9] 概率 '均匀分布在区间上'。

[10] 与其他轻尾分布（例如正态分布）相比，服从柯西分布的随机变量有较高的概率取极值。在图形上，pdf 的 '尾部'（即左端和右端）。

[11] 对于 $a<0$ 的情况类似（不等号方向相反，最终我们将有两个负号相互抵消）。当 $a=0$ 时，随机变量变成一个非随机常数，所以我们对这种情况不感兴趣。

[12] 然后， $p_{1}+p_{2}+\dotsb +p_{k}=1$ .

[13] 如果对象被分配到除 $i$ 个单元以外的单元，那么它就是 '失败'。

[14] ${\mathcal {N}}$ 的下标 $k$ 是为了强调该分布是 $k$ 维的，并且是可选的。

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

	$\operatorname {HypGeo} (650,100,300)$
	$\operatorname {HypGeo} (650,350,100)$
	$\operatorname {HypGeo} (650,250,100)$
	$\operatorname {HypGeo} (650,100,100)$
	$\operatorname {HypGeo} (650,100,350)$

	$\operatorname {Binom} (200,0.001)$
	$\operatorname {Binom} (200,0.999)$
	$\operatorname {Binom} (20000,0.001)$
	$\operatorname {Binom} (20000,0.999)$
	$\operatorname {Binom} (2,0.001)$

	是。
	否。

正确答案加一分
错误答案减分
忽略问题系数

	二项分布。
	泊松分布。
	几何分布。
	负二项分布。
	超几何分布。

	二项分布。
	泊松分布。
	几何分布。
	负二项分布。
	超几何分布。