概率/重要分布

随机变量

概率
重要分布

联合分布与独立性

离散随机变量的分布

初步概念：伯努利试验

定义. (伯努利试验) 一个伯努利试验是一个只有两个可能结果的实验，即成功和失败。

备注。

'成功'和'失败'仅仅作为标签，即我们可以将实验中的任何一个结果定义为'成功'。

定义. (伯努利试验的独立性) 令 $S_{i}$ 为事件 $\{i{\text{th Bernoulli trial is a success}}\},\quad i=1,2,\dotsc$ ^[1]. 如果 $S_{1},S_{2},\dotsc$ 是独立的，那么相应的伯努利试验是独立的。

示例. 如果我们将抛硬币的结果解释为'正面朝上'和'反面朝上'，那么抛硬币就是一个伯努利试验。

练习。

备注。

我们通常将抛硬币的结果解释为'正面朝上'和'反面朝上'。

二项分布

动机

考虑 ${\color {blue}n}$ 个独立的伯努利试验，每个试验的成功概率均为 ${\color {darkgreen}p}$ 。我们想要计算概率 $\mathbb {P} (\{{\color {darkgreen}r}{\text{ successes in }}{\color {blue}n}{\text{ trials}}\})$ 。

设 $S_{i}$ 为事件 $\{i{\text{th Bernoulli trial is a success}}\},\quad i=1,2,\dotsc$ ，如上一节所述。让我们考虑一个特定的结果序列，其中有 ${\color {darkgreen}r}$ 次成功，在 ${\color {blue}n}$ 次试验中： ${\color {darkgreen}\underbrace {S\cdots S} _{r{\text{ successes}}}}{\color {red}\overbrace {F\cdots F} ^{{\color {blue}n}-{\color {darkgreen}r}{\text{ failures}}}}$ 。它的概率是 $\mathbb {P} ({\color {darkgreen}S_{1}\cap \dotsb S_{r}}\cap {\color {red}S_{r+1}^{c}\cap \dotsb \cap S_{\color {blue}n}^{c}}){\overset {\text{ indpt. }}{=}}{\color {darkgreen}\mathbb {P} (S_{1})\dotsb \mathbb {P} (S_{r})}{\color {red}\mathbb {P} (S_{r+1}^{c})\cdots \mathbb {P} (S_{\color {blue}n}^{c})}={\color {darkgreen}p^{r}}{\color {red}(1-{\color {darkgreen}p})^{{\color {blue}n}-{\color {darkgreen}r}}}$ ^[2] 由于其他序列的概率（其中一些 ${\color {darkgreen}r}$ 次成功发生在其他试验中）是相同的，并且存在 ${\binom {\color {blue}n}{\color {darkgreen}r}}$ 个不同的可能序列^[3]， $\mathbb {P} (\{{\color {darkgreen}r}{\text{ successes in }}{\color {blue}n}{\text{ trials}}\})={\binom {\color {blue}n}{\color {darkgreen}r}}{\color {darkgreen}p}^{\color {darkgreen}r}{\color {red}(1-{\color {darkgreen}p})^{{\color {blue}n}-{\color {darkgreen}r}}}.$ 这是一个随机变量的概率质量函数，该随机变量遵循 二项分布。

定义

定义。（二项分布）

随机变量 $X$ 服从 二项分布，具有 ${\color {blue}n}$ 个独立的伯努利试验和成功概率 ${\color {darkgreen}p}$ ，表示为 $X\sim \operatorname {Binom} ({\color {blue}n},{\color {darkgreen}p})$ ，如果其概率质量函数为 $f({\color {darkgreen}x};{\color {blue}n},{\color {darkgreen}p})={\binom {\color {blue}n}{\color {darkgreen}x}}{\color {darkgreen}p^{x}}{\color {red}(1-{\color {darkgreen}p})^{{\color {blue}n}-{\color {darkgreen}x}}},\quad {\color {darkgreen}x}\in \operatorname {supp} (X)=\{0,1,2,\dotsc ,{\color {blue}n}\}.$

备注。

概率质量函数中的 “ $;n,p$ ” 強調了分布的参数（即描述分布的量）的值为 $n$ 和 $p$ 。我们可以对概率密度函数使用类似的符号。

对于强调参数值的表示，还有一些替代方法。例如，当参数值为 $\theta$ 时，pdf/pmf 可以表示为 $f(\cdot |\theta ),f_{\theta }(\cdot ),\dotsc$
当然，不需要将这些添加到 pdf/pmf 中，但它可以使所涉及的参数值更加明确和清晰。

pmf 包含一个 二项式 系数，因此得名 '二项式 分布'。
每个分布的一般说明:

我们也可以直接写下分布的符号来表示分布本身，例如 $\operatorname {Binom} {({\color {blue}n},{\color {darkgreen}p})}$ 代表二项式分布。
有时为了简便，我们会说一个分布的 pmf、pdf 或支撑，指的是遵循该分布的随机变量的 pmf、pdf 或支撑（分别）。（这也适用于分布的其他属性（将在后面的章节中讨论），例如均值、方差等）。

伯努利分布

伯努利分布是 二项式 分布的一个特例，如下所示

定义。 （伯努利分布）

一个随机变量 $X$ 遵循成功概率为 ${\color {darkgreen}p}$ 的 伯努利分布，记为 $X\sim \operatorname {Ber} ({\color {darkgreen}p})$ ，如果它的 pmf 是 $f({\color {darkgreen}x};{\color {darkgreen}p})={\color {darkgreen}p^{x}}{\color {red}(1-{\color {darkgreen}p})^{1-{\color {darkgreen}x}}},\quad {\color {darkgreen}x}\in \operatorname {supp} (X)=\{0,1\}.$

备注。

$\operatorname {Ber} ({\color {darkgreen}p})=\operatorname {Binom} (1,{\color {darkgreen}p})$ .
这是一个伯努利试验，因此得名“伯努利分布”。

泊松分布

动机

泊松分布可以被看作是二项分布的“极限情况”。

考虑 ${\color {blue}n}$ 个独立的伯努利试验，成功概率为 ${\color {darkgreen}p}=\lambda /{\color {blue}n}$ 。根据二项分布， $\mathbb {P} ({\color {darkgreen}r}{\text{ successes in }}{\color {blue}n}{\text{ trials}})={\binom {\color {blue}n}{\color {darkgreen}r}}{\color {darkgreen}(\lambda /{\color {blue}n})^{r}}{\color {red}(1-\lambda /{\color {blue}n})^{{\color {blue}n}-{\color {darkgreen}r}}}.$

After that, consider an unit time interval, with (positive) occurrence rate $\lambda$ of a rare event (i.e. the mean of number of occurrence of the rare event is $\lambda$ ). We can divide the unit time interval to ${\color {blue}n}$ time subintervals of time length $1/{\color {blue}n}$ each. If ${\color {blue}n}$ is large and ${\color {darkgreen}p}$ is relatively small, such that the probability for occurrence of two or more rare events at a single time interval is negligible, then the probability for occurrence of exactly one rare event for each time subinterval is ${\color {darkgreen}p}=\lambda /{\color {blue}n}$ by definition of mean. Then, we can view the unit time interval as a sequence of ${\color {blue}n}$ Bernoulli trials ^[4] with success probability ${\color {darkgreen}p}=\lambda /{\color {blue}n}$ . After that, we can use $\operatorname {Binom} {({\color {blue}n},\lambda /{\color {blue}n})}$ to model the number of occurrences of rare event. To be more precise, ${\begin{aligned}\mathbb {P} (\underbrace {{\color {darkgreen}r}{\text{ successes in }}{\color {blue}n}{\text{ trials}}} _{{\color {darkgreen}r}{\text{ rare events in the unit time}}})&={\binom {\color {blue}n}{\color {darkgreen}r}}{\color {darkgreen}(\lambda /{\color {blue}n})^{r}}{\color {red}(1-\lambda /{\color {blue}n})^{{\color {blue}n}-{\color {darkgreen}r}}}\\&={\frac {{\color {blue}n}({\color {blue}n}-1)\dotsb ({\color {blue}n}-{\color {darkgreen}r}+1)}{{\color {darkgreen}r}!}}(\lambda ^{\color {darkgreen}r}/{\color {blue}n}^{\color {darkgreen}r})(1-\lambda /{\color {blue}n})^{{\color {blue}n}-{\color {darkgreen}r}}\\&=(\lambda ^{\color {darkgreen}r}/{\color {darkgreen}r}!)\overbrace {(1-\underbrace {1/{\color {blue}n}} _{\to 0{\text{ as }}n\to \infty })\dotsb {\big (}1-\underbrace {({\color {darkgreen}r-1})/{\color {blue}n}} _{\to 0{\text{ as }}n\to \infty }{\big )}} ^{\to 1{\text{ as }}n\to \infty }\underbrace {(1-\lambda /{\color {blue}n})^{\overbrace {{\color {blue}n}-{\color {darkgreen}r}} ^{\to n{\text{ as }}n\to \infty }}} _{\to e^{-\lambda }{\text{ as }}n\to \infty }\\&\to e^{-\lambda }\lambda ^{\color {darkgreen}r}/{\color {darkgreen}r}!{\text{ as }}n\to \infty .\end{aligned}}$ This is the pmf of a random variable following the Poisson distribution, and this result is known as the Poisson limit theorem (or law of rare events). We will introduce it formally after introducing the definition of Poisson distribution.

定义

定义。（泊松分布）

如果随机变量 $X$ 服从参数为正数 $\lambda$ 的泊松分布，记为 $X\sim \operatorname {Pois} (\lambda )$ ，那么它的 pmf 为 $f({\color {darkgreen}x};\lambda )=e^{-\lambda }\lambda ^{\color {darkgreen}x}/{\color {darkgreen}x}!,\quad {\color {darkgreen}x}\in \operatorname {supp} (X)=\{0,1,2,\dotsc \}.$

备注。

它以法国数学家西蒙·德尼·泊松命名。

定理。 (泊松极限定理) 遵循 $\operatorname {Binom} {({\color {blue}n},\lambda /{\color {blue}n}})$ 的随机变量 在分布上收敛 到一个遵循 $\operatorname {Pois} {(\lambda )}$ 的随机变量，当 ${\color {blue}n}\to \infty$ 。

证明。 该结果源于上面证明的结果： $\operatorname {Binom} ({\color {blue}n},\lambda /{\color {blue}n})$ 的概率质量函数 (PMF) 当 ${\color {blue}n}\to \infty$ 时趋近于 $\operatorname {Pois} {(\lambda )}$ 的 PMF。

$\Box$

备注。

因此，泊松分布可用于近似大的 ${\color {blue}n}$ 和相对小的 ${\color {darkgreen}p}=\lambda /{\color {blue}n}$ 的二项分布。

几何分布

动机

考虑一个独立伯努利试验序列，其成功概率为 ${\color {darkgreen}p}$ 。我们想计算概率 $\mathbb {P} (\{{\color {red}x}{\text{ failures before first success}}\})$ 。通过考虑以下结果序列： ${\color {red}\underbrace {F\cdots F} _{{\color {red}x}{\text{ failures}}}}{\color {darkgreen}S},$ ，我们可以计算出 $\mathbb {P} (\{{\color {red}x}{\text{ failures before first success}}\})={\color {red}(1-{\color {darkgreen}p})^{x}}{\color {darkgreen}p},\quad {\color {red}x}\in \operatorname {supp} (X)=\{0,1,2,\dotsc \}$ ^[5] 这是一个服从几何分布的随机变量的概率质量函数。

定义

定义。 （几何分布）

${\color {green}\operatorname {Geo} (0.2)},{\color {blue}\operatorname {Geo} (0.5)}$ 和 ${\color {red}\operatorname {Geo} (0.8)}$ 的概率质量函数。

如果随机变量 $X$ 服从参数为 ${\color {darkgreen}p}$ 的几何分布，记为 $X\sim \operatorname {Geo} ({\color {darkgreen}p})$ ，则其概率质量函数为 $f({\color {red}x};{\color {darkgreen}p})={\color {red}(1-{\color {darkgreen}p})^{x}}{\color {darkgreen}p},\quad {\color {red}x}\in \operatorname {supp} (X)=\{0,1,2,\dotsc \}.$

备注。

从 $f(0;{\color {darkgreen}p})$ 开始，输入值 ${\color {red}x}$ 依次递增（即 ${\color {darkgreen}p},{\color {red}(1-{\color {darkgreen}p})}{\color {darkgreen}p},{\color {red}(1-{\color {darkgreen}p})^{2}}{\color {darkgreen}p},\dotsc$ ) 构成一个 等比数列，因此得名“几何分布”。
另一种定义是，概率质量函数为 $(1-p)^{x-1}p$ ，它是 $\mathbb {P} (\{x{\text{ trials before first success}}\})$ 的概率，其支撑集为 $\operatorname {supp} (X)=\{1,2,\dotsc \}$ 。

命题.（几何分布的无记忆性）如果 $X\sim \operatorname {Geo} (p)$ ，则对于每个非负整数 $m$ 和 $n$ ，有 $\mathbb {P} (X>m+n|X\geq m)=\mathbb {P} (X>n)$ 。

证明。 ${\begin{aligned}\mathbb {P} (X>m+n|X\geq m)&{\overset {\text{ def }}{=}}{\frac {\mathbb {P} (\overbrace {X>m+n\cap X\geq m)} ^{=X>m+n}}{\mathbb {P} (X\geq m)}}\\&{\overset {\text{ def }}{=}}{\frac {{\cancel {p}}\left((1-p)^{m+n+1}+(1-p)^{m+n+2}+\dotsb \right)}{{\cancel {p}}\left((1-p)^{m}+(1-p)^{m+1}+\dotsb \right)}}\\&={\frac {(1-p)^{{\cancel {m}}+n+1}{\cancel {/{\big (}1-(1-p){\big )}}}}{{\cancel {(1-p)^{m}}}{\cancel {/{\big (}1-(1-p){\big )}}}}}&{\text{by geometric series formula}}\\&=(1-p)^{n+1}\cdot {\frac {\color {darkgreen}p}{\color {blue}p}}\\&={\color {darkgreen}p}\cdot {\frac {(1-p)^{n+1}}{\color {blue}1-(1-p)}}\\&={\color {darkgreen}p}\left((1-p)^{n+1}+(1-p)^{n+2}+\dotsb \right)&{\text{by geometric series formula}}\\&{\overset {\text{ def }}{=}}\mathbb {P} (X>n)&{\text{since }}X>n\Leftrightarrow X=n+1,n+2,\dotsc .\\\end{aligned}}$

特别是， $X>m+n\cap X\geq m=X>m+n$ 因为 $\underbrace {X>m+n} _{X=m+n+1,m+n+2,\dotsc }\subsetneq \underbrace {X\geq m} _{X=m,m+1,\dotsc }$ .

$\Box$

备注。

$X>m+n$ 可以解释为 '在第一次成功之前，有超过 $m+n$ 次失败'；
$X\geq m$ 可以解释为 '已经发生了 $m$ 次失败，所以在第一次成功之前，有超过或等于 $m$ 次失败'。
这意味着条件 $X\geq m$ 不影响剩余第一次成功之前的失败次数的分布（它仍然遵循具有相同成功概率的几何分布）。
因此，我们可以假设试验在任意失败的试验后重新开始。

例如，如果第一次试验失败，则第一次成功之前的剩余失败次数的分布不会受到影响。
此外，如果第一次试验成功，则条件变为 $X=0$ ，而不是 $X\geq m$ ，因此上述公式不适用于这种情况。

事实上， $\mathbb {P} (X>m+n|X=0)=0$ ，因为考虑到 $X=0$ ， $X$ 不能超过零。

负二项分布

动机

Consider a sequence of independent Bernoulli trials with success probability ${\color {darkgreen}p}$ . We would like to calculate the probability $\mathbb {P} (\{{\color {red}x}{\text{ failures before }}{\color {darkgreen}k}{\text{th success}}\})$ . By considering this sequence of outcomes: $\overbrace {{\color {red}\underbrace {F\cdots F} _{x_{1}{\text{ failures}}}}{\color {darkgreen}S}{\color {red}\underbrace {F\cdots F} _{x_{2}{\text{ failures}}}}{\color {darkgreen}S}\cdots {\color {red}\underbrace {F\cdots F} _{x_{k}{\text{ failures}}}}} ^{{\color {red}x}+{\color {darkgreen}k}-1{\text{ trials}}}{\color {darkgreen}\overbrace {S} ^{k{\text{th success}}}},\quad {\color {red}x_{1}}+{\color {red}x_{2}}+\dotsb +{\color {red}x_{k}}={\color {red}x},$ we can calculate that $\mathbb {P} (\{{\color {red}x}{\text{ failures before }}{\color {darkgreen}k}{\text{th success}}\})={\color {red}(1-{\color {darkgreen}p})^{x}}{\color {darkgreen}p^{k}},\quad {\color {red}x}\in \operatorname {supp} (X)=\{0,1,2,\dotsc \}.$ Since the probability of other sequences with some of ${\color {red}x}$ failures occuring in other trials (and some of ${\color {darkgreen}k}-1$ successes (excluding the ${\color {darkgreen}k}$ th success, which must occur in the last trial) occuring in other trials), is the same, and there are ${\binom {{\color {red}x}+{\color {darkgreen}k}-1}{\color {red}x}}$ (or ${\binom {{\color {red}x}+{\color {darkgreen}k}-1}{{\color {green}k}-1}}$ , which is the same numerically) distinct possible sequences ^[6], $\mathbb {P} (\{{\color {red}x}{\text{ failures before }}{\color {darkgreen}k}{\text{th success}}\})={\binom {{\color {red}x}+{\color {darkgreen}k}-1}{\color {red}x}}{\color {red}(1-{\color {darkgreen}p})^{x}}{\color {darkgreen}p^{k}},\quad {\color {red}x}\in \operatorname {supp} (X)=\{0,1,2,\dotsc \}.$ This is the pmf of a random variable following the negative binomial distribution.

定义

定义. (负二项分布)

随机变量 $X$ 遵循 负二项分布，其 成功概率 为 ${\color {darkgreen}p}$ ，记为 $X\sim \operatorname {NB} ({\color {darkgreen}k,p})$ ，如果它的 pmf 为 $f({\color {red}x};{\color {darkgreen}k,p})={\binom {{\color {red}x}+{\color {darkgreen}k}-1}{\color {red}x}}{\color {red}(1-{\color {darkgreen}p})^{x}}{\color {darkgreen}p^{k}},\quad {\color {red}x}\in \operatorname {supp} (X)=\{0,1,2,\dotsc \}.$

备注。

负二项 系数被涉及，因此得名 '负二项 分布'。

超几何分布

动机

考虑从总体大小为 $N$ 的总体中，不放回地抽取大小为 $n$ 的样本，该总体包含 $K$ 个类型 1 的对象和 $N-K$ 个其他类型的对象。那么，概率 $\mathbb {P} (\{k{\text{ type 1 objects are found when }}n{\text{ objects are drawn from }}N{\text{ objects}}\})=\underbrace {\binom {K}{k}} _{\text{type 1}}\overbrace {\binom {N-K}{n-k}} ^{\text{another type}}{\bigg /}\underbrace {\binom {N}{n}} _{\text{all outcomes}},\quad k\in {\big \{}\max\{n-N+K,0\},\dotsc ,\min {\{K,n\}}{\big \}}$ ^[7].

${\binom {K}{k}}$ : 从 $K$ 个（可区分的）类型 1 的对象中，不放回地选择 $k$ 个对象的无序选择；
${\binom {N-K}{n-k}}$ : 从 $N-K$ 个（可区分的）其他类型的对象中，不放回地选择 $n-k$ 个对象的无序选择；
${\binom {N}{n}}$ : 从 $N$ 个（可区分的）对象中，不放回地选择 $n$ 个对象的无序选择。

这是一个遵循 超几何分布 的随机变量的 pmf。

定义

定义。 （超几何分布）

${\color {blue}\operatorname {HypGeo} (500,50,100)},{\color {darkgreen}\operatorname {HypGeo} (500,60,200)}$ 和 ${\color {red}\operatorname {HypGeo} (500,70,300)}$ 的概率质量函数。

随机变量 $X$ 服从 超几何分布，其中从包含 $K$ 个类型 1 对象和 $N-K$ 个其他类型对象的集合中抽取 $n$ 个对象，记为 $X\sim \operatorname {HypGeo} (N,K,n)$ ，如果它的概率质量函数是 $f(k;N,K,n)={\binom {K}{k}}{\binom {N-K}{n-k}}{\bigg /}{\binom {N}{n}},\quad k\in \operatorname {supp} (X)={\big \{}\max\{n-N+K,0\},\dotsc ,\min {\{K,n\}}{\big \}}.$ 。

${\color {blue}\operatorname {HypGeo} (500,50,100)},{\color {darkgreen}\operatorname {HypGeo} (500,60,200)}$ 和 ${\color {red}\operatorname {HypGeo} (500,70,300)}$ 的累积分布函数。

备注。

概率质量函数有点类似于 超几何 级数^[8]，因此得名 “超几何 分布”。

有限离散分布

这种类型的分布是所有具有有限支撑的离散分布的推广，例如伯努利分布和超几何分布。

这种类型分布的另一个特例是 离散均匀分布，它类似于 连续均匀分布（将在后面讨论）。

定义。 （有限离散分布）随机变量 $X$ 服从向量 $\mathbf {x} =(x_{1},\dotsc ,x_{n})^{T}$ 和概率向量 $\mathbf {p} =(p_{1},\dotsc ,p_{n})^{T},\quad p_{1},\dotsc ,{\text{ and }}p_{n}\geq 0,p_{1}+\dotsb +p_{n}=1$ 的 有限离散分布，记作 $X\sim \operatorname {FD} (\mathbf {x} ,\mathbf {p} )$ ，如果它的概率质量函数为 $f(x_{i};\mathbf {p} )=p_{i},\quad i=1,\dotsc ,{\text{ or }}n.$

备注。

对于均值和方差，我们可以直接根据定义进行计算。有限离散分布没有特殊的公式。

定义。 （离散均匀分布） 离散均匀分布，记作 $\operatorname {D} {\mathcal {U}}\{x_{1},\dotsc ,x_{n}\}$ ，是指 $\operatorname {FD} (\mathbf {x} ,\mathbf {p} ),\quad \mathbf {p} ={\bigg (}\underbrace {{\frac {1}{n}},\dotsc ,{\frac {1}{n}}} _{n{\text{ times}}}{\bigg )}^{T}$ .

备注。

它的概率质量函数为 $f(x_{i})={\frac {1}{n}},\quad i=1,\dotsc ,{\text{ or }}n.$

示例。 假设随机变量 $X\sim \operatorname {FD} {\big (}(1,2,3)^{T},(0.2,0.3,0.5)^{T}{\big )}$ 。然后， $\mathbb {P} (X=1)=0.2,\mathbb {P} (X=2)=0.3,{\text{ and }}\mathbb {P} (X=3)=0.5.$ 概率质量函数的示意图

|
|              *
|              |
|         *    |
|    *    |    |
|    |    |    |
*----*----*----*-------
     1    2    3

示例。 假设随机变量 $X\sim \operatorname {D} {\mathcal {U}}\{1,2,3\}$ 。然后， $\mathbb {P} (X=1)=\mathbb {P} (X=2)=\mathbb {P} (X=3)={\frac {1}{3}}.$ 概率质量函数的示意图

|
|               
|               
|    *    *    *
|    |    |    |
|    |    |    |
*----*----*----*-------
     1    2    3

习题

练习。

连续随机变量的分布

均匀分布（连续）

连续均匀分布是“无偏好”的模型，即其支撑集上所有长度相同的区间都具有相同的概率 ^[9]（可以从对应于连续均匀分布的概率密度函数中看出）。还存在离散均匀分布，但它不如连续均匀分布重要。因此，从现在开始，简称为“均匀分布”是指连续分布，而不是离散分布。

定义。（均匀分布）

如果随机变量 $X$ 遵循 均匀分布，用 $X\sim {\mathcal {U}}[a,b]$ 表示，如果其 pdf 为 $f(x)=1/(b-a),\quad x\in \operatorname {supp} (X)=[a,b],{\text{ and }}a\leq b.$

备注。

${\mathcal {U}}[a,b]$ 的支持也可以是 $[a,b),(a,b]$ 或 $(a,b)$ ，不会影响相关事件的概率，因为使用 pdf 在一个单一点上计算的概率总是零。
${\mathcal {U}}[0,1]$ 是 标准均匀分布。

命题。

(均匀分布的 cdf) ${\mathcal {U}}[a,b]$ 的 cdf 为 $F(x)={\begin{cases}0,&x<a;\\(x-a)/(b-a),&a\leq x\leq b;\\1,&x>b.\end{cases}}$

证明。 $F(x)=\int _{-\infty }^{x}{\frac {\mathbf {1} \{a\leq x\leq b\}}{b-a}}\,dy={\frac {1}{b-a}}\int _{a}^{x}\mathbf {1} \{a\leq x\leq b\}\,dy={\begin{cases}0/(b-a),&x<a;\\[][y]_{a}^{x}/(b-a),&a\leq x\leq b;\\[][y]_{a}^{b}/(b-a),&x>b.\end{cases}}$ 然后，结果就出来了。

$\Box$

指数分布

带有速率参数 $\lambda$ 的指数分布通常用于描述速率为 $\lambda$ 的罕见事件的 到达时间间隔。

与泊松分布相比，指数分布描述了罕见事件的到达时间间隔，而泊松分布描述了在固定时间间隔内罕见事件发生的数量。

根据速率的定义，当速率 $\uparrow$ 时，到达时间间隔 $\downarrow$ （即，罕见事件的频率 $\uparrow$ ）。

因此，我们希望当 $\lambda \uparrow$ 时，pdf 更偏向左侧（即，当 $\lambda \uparrow$ 时，pdf 对较小的 $x$ 有更高的值），以便当 $\lambda \uparrow$ 时，包含较小 $x$ 值的区间的 pdf 下的面积 $\uparrow$ 。

此外，由于速率 $\lambda$ 恒定，到达时间间隔不太可能出现更高的值。因此，直观地说，我们也希望 pdf 是一个严格的递减函数，以便当 $x\uparrow$ 时，所涉及的概率（pdf 在某个区间的下的面积） $\downarrow$ 。

如我们所见，指数分布的 pdf 满足这两个性质。

定义。（指数分布）

随机变量 $X$ 服从 指数分布，其正速率参数为 $\lambda$ ，表示为 $X\sim \operatorname {Exp} (\lambda )$ ，如果其 PDF 为 $f(x)=\lambda e^{-\lambda x},\quad x\in \operatorname {supp} (X)=[0,\infty ).$

命题。 （指数分布的 CDF）

$\operatorname {Exp} (\lambda )$ 的 CDF 为 $F(x)=1-e^{-\lambda x},\quad x\geq 0.$

证明。 假设 $X\sim \operatorname {Exp} (\lambda )$ . $X$ 的累积分布函数为 ${\begin{aligned}F(x)&=\int _{-\infty }^{x}\lambda e^{-\lambda y}\mathbf {1} \{y\geq 0\}\,dy\\&={\begin{cases}\int _{0}^{x}\lambda e^{-\lambda y}\,dy,&x\geq 0;\\0,&x<0\\\end{cases}}&\left({\text{When }}x<0,x\notin \operatorname {supp} (X),{\text{ so }}F(x)=\mathbb {P} (X\leq x)=0\right)\\&=\mathbf {1} \{x\geq 0\}\lambda \int _{0}^{x}e^{-\lambda y}\,dy\\&=\mathbf {1} \{x\geq 0\}{\frac {\lambda }{-\lambda }}[e^{-\lambda }y]_{0}^{x}\\&=-\mathbf {1} \{x\geq 0\}(e^{-\lambda x}-1)\\&=(1-e^{-\lambda x})\mathbf {1} \{x\geq 0\}.\\\end{aligned}}$

$\Box$

命题。 (指数分布的无记忆性) 如果 $X\sim \operatorname {Exp} (\lambda )$ , 那么 $\mathbb {P} (X>s+t|X>s)=\mathbb {P} (X>t)$ 对于每个非负数 $s$ 和 $t$ .

证明。 $\mathbb {P} (X>s+t|X>s){\overset {\text{ def }}{=}}{\frac {\mathbb {P} (X>s+t\cap X>s)}{\mathbb {P} (X>s)}}={\frac {\mathbb {P} (X>s+t)}{\mathbb {P} (X>s)}}={\frac {1-(1-e^{-\lambda (s+t)})}{1-(1-e^{-\lambda s})}}={\frac {e^{-\lambda (s+t)}}{e^{-\lambda s}}}=e^{-\lambda t}=\mathbb {P} (X>t).$

$\Box$

备注。

$X>s+t$ 可以解释为“在接下来的 $t$ 个时间单位内不会发生罕见事件”；
$X>s$ 可以解释为“在过去的 $s$ 个时间单位内没有发生罕见事件”。
这意味着条件 $X>s$ 不会影响罕见事件剩余等待时间的分布（它仍然遵循相同参数的指数分布）。
因此，我们可以假设事件的到达过程在观察的任意时间点重新开始。

Gamma 分布

Gamma 分布是广义的指数分布，从某种意义上说，我们也可以改变形状的指数分布的 pdf。

定义。 （Gamma 分布）

随机变量 $X$ 服从 伽马分布，其中形状参数 $\alpha$ 为正数，速率参数 $\lambda$ 为正数，记为 $X\sim \operatorname {Gamma} (\alpha ,\lambda )$ ，如果其概率密度函数为 $f(x)={\frac {\lambda ^{\alpha }x^{\alpha -1}e^{-\lambda x}}{\Gamma (\alpha )}},\quad x\in \operatorname {supp} (X)=[0,\infty ).$

备注。

$\operatorname {Gamma} (1,\lambda )\equiv \operatorname {Exp} (\lambda )$ ，因为 $\operatorname {Gamma} (1,\lambda )$ 的概率密度函数

$f(x)={\frac {\lambda x^{1-1}e^{-\lambda }}{\underbrace {\Gamma (1)} _{=0!=1}}}\mathbf {1} \{x\geq 0\}=\lambda e^{-\lambda x},$

这是

\operatorname {Exp} (\lambda )

的概率密度函数。

贝塔分布

贝塔分布是 ${\mathcal {U}}[0,1]$ 的推广，因为我们可以使用 两个形状参数 来改变概率密度函数的形状。

定义。 (贝塔分布)

随机变量 $X$ 遵循 beta 分布，其正形状参数为 $\alpha$ 和 $\beta$ ，记为 $X\sim \operatorname {Beta} (\alpha ,\beta )$ ，如果其 PDF 为 $f(x)={\frac {\Gamma (\alpha +\beta )}{\Gamma (\alpha )\Gamma (\beta )}}x^{\alpha -1}(1-x)^{\beta -1},\quad x\in \operatorname {supp} (X)=[0,1].$

备注。

$\operatorname {Beta} (1,1)\equiv {\mathcal {U}}[0,1]$ ，因为 $\operatorname {Beta} (1,1)$ 的 PDF 为

$f(x)={\frac {\overbrace {\Gamma (2)} ^{=1!=1}}{\underbrace {\Gamma (1)} _{=0!=1}\Gamma (1)}}x^{1-1}(1-x)^{1-1}\mathbf {1} \{0\leq x\leq 1\}=\mathbf {1} \{0\leq x\leq 1\},$

这是

{\mathcal {U}}[0,1]

的 pdf。

柯西分布

柯西分布是一种重尾分布 ^[10]。因此，它是一个“病态”分布，因为它的某些性质违反直觉，例如，尽管它的均值和方差在直接观察其图形时似乎是定义的，但它却并没有定义均值和方差。

定义。（柯西分布）

随机变量 $X$ 遵循 柯西分布，其位置参数为 $\theta$ ，记为 $X\sim \operatorname {Cauchy} (\theta )$ ，如果其 pdf 为 $f(x)={\frac {1}{\pi (1+(x-\theta )^{2})}},\quad x\in \operatorname {supp} (X)=\mathbb {R} .$

备注。

此定义指的是柯西分布的一个特例。更准确地说，柯西分布的完整定义中还包括尺度参数，而这里 pdf 中的尺度参数被设置为 1。

为了简单起见，这里使用了此定义。

Pdf 关于 $\theta$ 对称，因为 $f(\theta +x)=f(\theta -x)$ .

正态分布（非常重要）

正态分布或高斯分布是一个美丽的事物，它出现在自然界的许多地方。这可能是因为样本均值或样本和经常近似遵循正态分布，这是由 中心极限定理 决定的。因此，正态分布在统计学中非常重要。

定义。（正态分布）

随机变量 $X$ 服从 正态分布，其均值为 $\mu$ ，方差为 $\sigma ^{2}$ ，记作 $X\sim {\mathcal {N}}(\mu ,\sigma ^{2})$ ，如果其概率密度函数为 $f(x)={\frac {1}{\sqrt {2\pi \sigma ^{2}}}}\exp \left(-{\frac {(x-\mu )^{2}}{2\sigma ^{2}}}\right),\quad x\in \operatorname {supp} (X)=\mathbb {R} .$

备注。

分布 ${\mathcal {N}}(0,1)$ 是标准正态分布。

对于 ${\mathcal {N}}(0,1)$ ，其概率密度函数通常记作 $\varphi (\cdot )$ ，其累积分布函数通常记作 $\Phi (\cdot )$ 。
${\mathcal {N}}(0,1)$ 的概率密度函数为 $\varphi (x)={\frac {1}{\sqrt {2\pi }}}e^{-x^{2}/2}$ 。
因此， ${\mathcal {N}}(\mu ,\sigma ^{2})$ 的概率密度函数是 $(1/\sigma )\varphi (x-\mu /\sigma )$ 。

我们将证明 $\mu$ 实际上是均值，而 $\sigma$ 实际上是方差。
该概率密度函数关于 $\mu$ 对称，因为 $f(\mu +x)=f(\mu -x)$ 。

命题。（正态分布随机变量的线性变换分布）如果 $X\sim {\mathcal {N}}(\mu ,\sigma ^{2})$ ，且 ${\color {blue}a}$ 和 ${\color {red}b}$ 为常数，则 $Y={\color {blue}a}X+{\color {red}b}\sim {\mathcal {N}}({\color {blue}a}\mu +{\color {red}b},{\color {blue}a^{2}}\sigma ^{2})$ 。

证明。 假设 $a>0$ ^[11]. 令 $F_{X}$ 和 $F_{Y}$ 分别为 $X$ 和 $Y$ 的累积分布函数。由于 $F_{Y}(y)=\mathbb {P} (Y\leq y)=\mathbb {P} ({\color {blue}a}X+{\color {red}b}\leq y)=\mathbb {P} (X\leq (y-{\color {red}b})/{\color {blue}a})=F_{X}{\big (}(y-{\color {red}b})/{\color {blue}a}{\big )},$ 通过微分， ${\begin{aligned}f_{Y}(y)&={\frac {1}{\color {blue}a}}f_{X}{\big (}(y-{\color {red}b})/{\color {blue}a}{\big )}\\&={\frac {1}{{\color {blue}a}{\sqrt {2\pi \sigma ^{2}}}}}\exp \left(-{\big (}(y-{\color {red}b})/{\color {blue}a}-\mu {\big )}^{2}/2\sigma ^{2}\right)\\&={\frac {1}{\sqrt {2\pi {\color {blue}a^{2}}\sigma ^{2}}}}\exp \left(-{\big (}y-({\color {blue}a}\mu +{\color {red}b}){\big )}^{2}/2{\color {blue}a^{2}}\sigma ^{2}\right)&\quad {\text{since }}a>0,\\\end{aligned}}$ 这是 ${\mathcal {N}}({\color {blue}a}\mu +{\color {red}b},{\color {blue}a^{2}}\sigma ^{2})$ 的概率密度函数。

$\Box$

备注。

一个特殊情况是当 $a=1/\sigma$ 且 $b=-\mu /\sigma$ ， $Y=aX+b=(X-\mu )/\sigma \sim {\mathcal {N}}(0,1)$ ，因为
$a\mu +b=(1/\sigma )\mu -\mu /\sigma =0$ ;
$a^{2}\sigma ^{2}=\sigma ^{2}/\sigma ^{2}=1$ .
这表明我们可以将每个正态分布的随机变量转换为服从标准正态分布的随机变量。
这可以简化与正态分布随机变量相关的概率计算，因为我们有 标准正态表，其中给出不同 $x$ 的 $\Phi (x)$ 值。
对于某些类型的标准正态表，只给出不同非负 $x$ 的 $\Phi (x)$ 值。
然后，我们可以使用以下公式计算其在不同负 $x$ 处的值：

$\Phi (-x)=1-\Phi (x).$

这个公式成立，因为 ${\begin{aligned}&&\phi (-y)&=\phi (y)\\&\Leftrightarrow &\int _{-\infty }^{x}\phi (-y)\,dy&=\int _{-\infty }^{x}\phi (y)\,dy\\&\Leftrightarrow &-\int _{\infty }^{-x}\phi (u)\,du&=\Phi (x)&{\text{let }}u=-y\Rightarrow dy=-dy.\\&\Leftrightarrow &[\Phi (u)]_{-x}^{\infty }&=\Phi (x)\\&\Leftrightarrow &\underbrace {\Phi (\infty )} _{=\mathbb {P} (\Omega )=1}-\Phi (-x)&=\Phi (x).\end{aligned}}$

统计学中重要的分布，尤其是

以下分布在统计学中尤为重要，它们都与正态分布有关。我们将简要介绍它们。

卡方分布

卡方分布是伽马分布的一个特例，也与标准正态分布有关。

定义。 （卡方分布）

具有正的自由度的卡方分布 ${\color {blue}\nu }$ ，表示为 $\chi _{\color {blue}\nu }^{2}$ ，是 $Z_{1}^{2}+\dotsb +Z_{\color {blue}\nu }^{2}$ 的分布，其中 $Z_{1},\dotsc ,Z_{\color {blue}\nu }$ 是独立同分布的，并且它们都遵循 ${\mathcal {N}}(0,1)$ 。

备注。

可以证明 $\chi _{\color {blue}\nu }^{2}\equiv \operatorname {Gamma} ({\color {blue}\nu }/2,1/2)$ ，因此 $\operatorname {Gamma} (\alpha ,\lambda )\equiv {\frac {1}{2\lambda }}\chi _{2\alpha }^{2}$ 。（然后，我们可以通过此推导出 $\chi _{\nu }^{2}$ 的pdf。）
这意味着对于随机变量 $X\sim \chi _{2\alpha }^{2}$ ， ${\frac {X}{2\lambda }}\sim \operatorname {Gamma} (\alpha ,\lambda )$ 。
一个随机变量 $X$ 服从卡方分布，其自由度为 ${\color {blue}\nu }$ ，记为 $X\sim \chi _{\color {blue}\nu }^{2}$ 。

学生t分布

学生t分布 与卡方分布和正态分布有关。

定义.（学生 $t$ 分布）

带有 ${\color {blue}\nu }$ 个自由度的 学生 $t$ -分布，记为 $t_{\color {blue}\nu }$ ，是 ${\frac {Z}{\sqrt {Y/{\color {blue}\nu }}}}$ 的分布，其中 $Y\sim \chi _{\color {blue}\nu }^{2}$ 且 $Z\sim {\mathcal {N}}(0,1)$ .

备注。

$t_{1}=\operatorname {Cauchy} (0)$ 且 $t_{\infty }={\mathcal {N}}(0,1)$ （ $\infty$ 是扩展的实数）。
当 ${\color {blue}\nu }\downarrow$ 时，pdf 的尾部更重。
一个服从 （学生） $t$ -分布，带有 ${\color {blue}\nu }$ 个自由度的随机变量 $X$ ，记为 $X\sim t_{\color {blue}\nu }$ .
可以证明， $t_{\color {blue}\nu }$ 的 pdf 为

$f(x;{\color {blue}\nu })={\frac {\Gamma {\big (}({\color {blue}\nu }+1)/2{\big )}}{{\sqrt {{\color {blue}\nu }\pi }}\Gamma ({\color {blue}\nu }/2)}}\left({\frac {\color {blue}\nu }{x^{2}+{\color {blue}\nu }}}\right)^{({\color {blue}\nu }+1)/2}.$

F 分布

$F$ 分布在某种程度上是广义的学生 $t$ 分布，因为它多了一个可变参数来表示另一个自由度。

定义。 ( $F$ 分布) 具有 ${\color {red}\nu _{1}}$ 和 ${\color {blue}\nu _{2}}$ 自由度的 $F$ -分布，记为 $F_{{\color {red}\nu _{1}},{\color {blue}\nu _{2}}}$ ，是 ${\frac {X_{1}/{\color {red}\nu _{1}}}{X_{2}/{\color {blue}\nu _{2}}}}$ 的分布，其中 $X_{1}\sim \chi _{\color {red}\nu _{1}}^{2}$ 且 $X_{2}\sim \chi _{\color {blue}\nu _{2}}^{2}$ .

备注。

$F_{1,\nu }=t_{\nu }^{\color {purple}2}$ .
一个服从 $F$ -分布 的随机变量 $X$ ，具有 ${\color {red}\nu _{1}}$ 和 ${\color {blue}\nu _{2}}$ 自由度，记为 $X\sim F_{{\color {red}\nu _{1}},{\color {blue}\nu _{2}}}$ 。
可以证明， $F_{{\color {red}\nu _{1}},{\color {blue}\nu _{2}}}$ 的概率密度函数为

$f(x;{\color {red}\nu _{1}},{\color {blue}\nu _{2}})={\frac {\Gamma {\big (}({\color {red}\nu _{1}}+{\color {blue}\nu _{2}})/2{\big )}{\color {red}\nu _{1}}^{{\color {red}\nu _{1}}/2}{\color {blue}\nu _{2}}^{{\color {blue}\nu _{2}}/2}}{\Gamma ({\color {red}\nu _{1}}/2)\Gamma ({\color {blue}\nu _{2}}/2)}}\cdot {\frac {x^{{\color {red}\nu _{1}}/2-1}}{({\color {blue}\nu _{2}}+{\color {red}\nu _{1}}x)^{({\color {red}\nu _{1}}+{\color {blue}\nu _{2}})/2}}}.$

如果您想了解卡方分布、学生 $t$ -分布 和 $F$ -分布 在统计学中的用途，您可以简要浏览一下，例如，统计学/区间估计（置信区间构建中的应用）和统计学/假设检验（假设检验中的应用）。

联合分布

多项式分布

动机

多项式分布是广义二项式分布，因为每次试验的结果不止两种。

假设有 $n$ 个对象要分配到 $k$ 个单元格，每个对象独立分配到一个且仅一个单元格，分配到第 $i$ 个单元格的概率为 $p_{i}$ ( $i=1,2,\dotsc ,k$ ) ^[12]。设 $X_{i}$ 为分配到第 $i$ 个单元格的对象数量。我们想计算概率 $\mathbb {P} {\big (}\mathbf {X} {\overset {\text{ def }}{=}}(X_{1},\dotsc ,X_{k})^{T}=\mathbf {x} {\overset {\text{ def }}{=}}(x_{1},\dotsc ,x_{k})^{T}{\big )}$ ，即第 $i$ 个单元格有 $x_{i}$ 个对象的概率。

我们可以将每个分配视为一个独立的试验，有 $k$ 种结果（因为它只能分配到 $k$ 个单元格中的一个）。我们可以认识到，对 $n$ 个对象的分配是将 $n$ 个对象划分为 $k$ 组。因此，有 ${\binom {n}{x_{1},\dotsc ,x_{k}}}$ 种分配方式。

所以， $\mathbb {P} (\mathbf {X} =\mathbf {x} )={\binom {n}{x_{1},\dotsc ,x_{k}}}p_{1}^{x_{1}}\dotsb p_{k}^{x_{k}}.$ 特别地，将 $x_{i}$ 个对象分配到第 $i$ 个单元格的概率是 $p_{i}^{x_{i}}$ ，根据独立性，因此将 $n$ 个对象分配到 $k$ 个单元格的特定分配情况的概率为 $p_{1}^{x_{1}}\dotsb p_{k}^{x_{k}}$ ，根据独立性。

定义

定义. (多项式分布) 一个随机向量 $\mathbf {X} =(X_{1},\dotsc ,X_{k})^{T}$ 遵循多项式分布，其中有 $n$ 次试验和概率向量 $\mathbf {p} =(p_{1},\dotsc ,p_{k})^{T}$ ，记为 $\mathbf {X} \sim \operatorname {Multinom} (n,\mathbf {p} )$ ，如果其联合概率质量函数为 $f_{\mathbf {X} }(x_{1},\dotsc ,x_{k};n,\mathbf {p} )={\binom {n}{x_{1},\dotsc ,x_{k}}}p_{1}^{x_{1}}\dotsb p_{k}^{x_{k}},\quad x_{1},\dotsc ,x_{k}\geq 0,{\text{ and }}x_{1}+\dotsb +x_{k}=n.$

备注。

$\operatorname {Multinom} (n,\mathbf {p} )\equiv \operatorname {Binom} (n,p)$ 如果 $\mathbf {p} =(p,1-p)^{T}$ .

在这种情况下，如果 $(X_{1},X_{2})^{T}\sim \operatorname {Multinom} (n,\mathbf {p} )$ ， $X_{1}$ 是二项式分布的成功次数（而 $X_{2}(=n-X_{1})$ 是失败次数）。

此外， $X_{i}\sim \operatorname {Binom} (n,p_{i})$ 。可以从将对象分配到第 $i$ 个单元格作为“成功”来看出，对于每个单个对象的分配^[13]。然后，成功的概率为 $p_{i}$ 。

多元正态分布

多元正态分布，顾名思义，是正态分布（单变量）的多变量（以及推广）版本。

Definition. (Multivariate normal distribution) A random vector $\mathbf {X} =(X_{1},\dotsc ,X_{k})^{T}$ follows the $k$ -dimensional normal distribution with mean vector ${\boldsymbol {\mu }}$ and covariance matrix ${\boldsymbol {\Sigma }}$ , denoted by $\mathbf {X} \sim {\mathcal {N}}_{k}({\boldsymbol {\mu }},{\boldsymbol {\Sigma }})$ ^[14] if its joint pdf is $f_{\mathbf {X} }(x_{1},\dotsc ,x_{k};{\boldsymbol {\mu }},{\boldsymbol {\Sigma }})={\frac {\exp \left(-(\mathbf {x} -{\boldsymbol {\mu }})^{T}{\boldsymbol {\Sigma }}^{-1}(\mathbf {x} -{\boldsymbol {\mu }})/2\right)}{\sqrt {(2\pi )^{k}\det {\boldsymbol {\Sigma }}}}},\quad \mathbf {x} =(x_{1},\dotsc ,x_{k})^{T}\in \mathbb {R} ^{k}$ in which ${\boldsymbol {\mu }}=(\mu _{1},\dotsc ,\mu _{k})^{T}=(\mathbb {E} [X_{1}],\dotsc ,\mathbb {E} [X_{k}])^{T}$ is the mean vector, and ${\boldsymbol {\Sigma }}={\begin{pmatrix}\operatorname {Cov} (X_{1},X_{1})&\cdots &\operatorname {Cov} (X_{1},X_{k})\\\vdots &\ddots &\vdots \\\operatorname {Cov} (X_{k},X_{1})&\cdots &\operatorname {Cov} (X_{k},X_{k})\end{pmatrix}}={\begin{pmatrix}\sigma _{1}^{2}&\cdots &\operatorname {Cov} (X_{1},X_{k})\\\vdots &\ddots &\vdots \\\operatorname {Cov} (X_{k},X_{1})&\cdots &\sigma _{k}^{2}\end{pmatrix}}$ is the covariance matrix (with size $k\times k$ ).

备注。

情况 $k=2$ 的分布更常用，它被称为双变量正态分布。
一个替代且等效的定义是 $\mathbf {X} =(X_{1},\dotsc ,X_{k})^{T}\sim {\mathcal {N}}_{k}({\boldsymbol {\mu }},{\boldsymbol {\Sigma }})$ ，如果

${\begin{aligned}X_{1}&=a_{11}Z_{1}+\dotsb +a_{1n}Z_{n}+\mu _{1};\\\vdots \\X_{k}&=a_{k1}Z_{1}+\dotsb +a_{kn}Z_{n}+\mu _{k},\\\end{aligned}}$

对于一些常数

a_{11},\dotsc ,a_{1n},\dotsc ,a_{k1},\dotsc ,a_{kn},\mu _{1},\dotsc ,\mu _{k}

，以及

Z_{1},\dotsc ,Z_{n}

是

n

个独立同分布的标准正态随机变量。

利用上述结果， $X_{i}$ 所服从的边缘分布为 ${\mathcal {N}}(\mu _{i},\sigma _{i}^{2}),\quad i=1,2,\dotsc ,{\text{ or }}k$ ，正如预期的那样。

根据独立正态随机变量之和的命题以及正态随机变量线性变换的分布（参见概率/随机变量的变换章节），均值为 $0+\dotsb +0+\mu _{i}=\mu _{i}$ ，方差为 $a_{i1}^{2}+\dotsb +a_{in}^{2}$ （根据定义，这等于 $\sigma _{i}^{2}$ ）。

命题。（双变量正态分布的联合概率密度函数） ${\mathcal {N}}_{2}({\boldsymbol {\mu }},{\boldsymbol {\Sigma }})$ 的联合概率密度函数为 $f(x,y)={\frac {1}{2\pi \sigma _{X}\sigma _{Y}{\sqrt {1-\rho ^{2}}}}}\exp \left(-{\frac {1}{2(1-\rho ^{2})}}\left(\left({\frac {x-\mu _{X}}{\sigma _{X}}}\right)^{2}-2\rho \left({\frac {x-\mu _{X}}{\sigma _{X}}}\right)\left({\frac {y-\mu _{Y}}{\sigma _{Y}}}\right)+\left({\frac {y-\mu _{Y}}{\sigma _{Y}}}\right)^{2}\right)\right),\quad (x,y)^{T}\in \mathbb {R} ^{2}$

其中

\rho =\rho (X,Y)

且

\sigma _{X},\sigma _{Y}

为正数。

证明。对于双变量正态分布，

均值向量 为 ${\boldsymbol {\mu }}=(\mu _{X},\mu _{Y})$ ；
该 协方差矩阵 是 ${\boldsymbol {\Sigma }}={\begin{pmatrix}\operatorname {Cov} (X,X)&\operatorname {Cov} (X,Y)\\\operatorname {Cov} (Y,X)&\operatorname {Cov} (Y,Y)\end{pmatrix}}={\begin{pmatrix}\operatorname {Var} (X)&\operatorname {Cov} (X,Y)\\\operatorname {Cov} (X,Y)&\operatorname {Var} (Y)\\\end{pmatrix}}={\begin{pmatrix}\sigma _{X}^{2}&\rho \sigma _{X}\sigma _{Y}\\\rho \sigma _{X}\sigma _{Y}&\sigma _{Y}^{2}\\\end{pmatrix}}.$
因此，

${\begin{aligned}(\mathbf {x} -{\boldsymbol {\mu }})^{T}{\boldsymbol {\Sigma }}^{-1}(\mathbf {x} -{\boldsymbol {\mu }})&={\frac {1}{\det {\boldsymbol {\Sigma }}}}\left((x-\mu _{X},y-\mu _{Y})^{T}\right)^{T}{\begin{pmatrix}\sigma _{Y}^{2}&-\rho \sigma _{X}\sigma _{Y}\\-\rho \sigma _{X}\sigma _{Y}&\sigma _{X}^{2}\\\end{pmatrix}}(x-\mu _{X},y-\mu _{Y})^{T})\\&={\frac {1}{\det {\boldsymbol {\Sigma }}}}{\begin{pmatrix}{\color {blue}x-\mu _{X}}&{\color {red}y-\mu _{Y}}\end{pmatrix}}{\begin{pmatrix}{\color {darkgreen}\sigma _{Y}^{2}}&{\color {darkorange}-\rho \sigma _{X}\sigma _{Y}}\\{\color {purple}-\rho \sigma _{X}\sigma _{Y}}&{\color {maroon}\sigma _{X}^{2}}\\\end{pmatrix}}{\begin{pmatrix}x-\mu _{X}\\y-\mu _{Y}\end{pmatrix}}\\&={\frac {1}{\det {\boldsymbol {\Sigma }}}}{\begin{pmatrix}{\color {blue}(x-\mu _{X})}{\color {darkgreen}\sigma _{Y}^{2}}{\color {purple}-}{\color {red}(y-\mu _{Y})}{\color {purple}\rho \sigma _{X}\sigma _{Y}}&{\color {darkorange}-}{\color {blue}(x-\mu _{X})}{\color {darkorange}\rho \sigma _{X}\sigma _{Y}}+{\color {red}(y-\mu _{Y})}{\color {maroon}\sigma _{X}^{2}}\end{pmatrix}}{\begin{pmatrix}{\color {deeppink}x-\mu _{X}}\\{\color {deeppink}y-\mu _{Y}}\end{pmatrix}}\\&={\frac {1}{\underbrace {\det {\boldsymbol {\Sigma }}} _{\sigma _{X}^{2}\sigma _{Y}^{2}-(\rho \sigma _{X}\sigma _{Y})^{2}}}}{\big (}(x-\mu _{X})^{\color {deeppink}2}\sigma _{Y}^{2}\underbrace {-{\color {deeppink}(x-\mu _{X})}(y-\mu _{Y})\rho \sigma _{X}\sigma _{Y}-(x-\mu _{X}){\color {deeppink}(y-\mu _{Y})}\rho \sigma _{X}\sigma _{Y}} _{=-2\rho (x-\mu _{X})(y-\mu _{Y})\sigma _{X}\sigma _{Y}}+(y-\mu _{Y})^{\color {deeppink}2}\sigma _{X}^{2}{\big )}\\&={\frac {(x-\mu _{X})^{2}\sigma _{Y}^{2}-2\rho (x-\mu _{X})(y-\mu _{Y})\sigma _{X}\sigma _{Y}+(y-\mu _{Y})^{2}\sigma _{X}^{2}}{\sigma _{X}^{2}\sigma _{Y}^{2}(1-\rho )^{2}}}\\&={\frac {1}{1-\rho ^{2}}}\left(\left({\frac {x-\mu _{X}}{\sigma _{X}}}\right)^{2}-2\rho \left({\frac {(x-\mu _{X})(y-\mu _{Y})}{\sigma _{X}\sigma _{Y}}}\right)+\left({\frac {y-\mu _{Y}}{\sigma _{Y}}}\right)^{2}\right).\end{aligned}}$

联合pdf为

${\begin{aligned}f(x,y)&={\frac {1}{\sqrt {(2\pi )^{2}\det {\boldsymbol {\Sigma }}}}}\exp \left(-{\frac {1}{2}}\cdot {\frac {1}{1-\rho ^{2}}}\left(\left({\frac {x-\mu _{X}}{\sigma _{X}}}\right)^{2}-2\rho \left({\frac {(x-\mu _{X})(y-\mu _{Y})}{\sigma _{X}\sigma _{Y}}}\right)+\left({\frac {y-\mu _{Y}}{\sigma _{Y}}}\right)^{2}\right)\right)\\&={\frac {1}{2\pi {\sqrt {\sigma _{X}^{2}\sigma _{Y}^{2}(1-\rho ^{2})}}}}\exp \left({\frac {-1}{2(1-\rho ^{2})}}\left(\left({\frac {x-\mu _{X}}{\sigma _{X}}}\right)^{2}-2\rho \left({\frac {(x-\mu _{X})(y-\mu _{Y})}{\sigma _{X}\sigma _{Y}}}\right)+\left({\frac {y-\mu _{Y}}{\sigma _{Y}}}\right)^{2}\right)\right)\\&={\frac {1}{2\pi \sigma _{X}\sigma _{Y}{\sqrt {1-\rho ^{2}}}}}\exp \left({\frac {-1}{2(1-\rho ^{2})}}\left(\left({\frac {x-\mu _{X}}{\sigma _{X}}}\right)^{2}-2\rho \left({\frac {x-\mu _{X}}{\sigma _{X}}}\right)\left({\frac {y-\mu _{Y}}{\sigma _{Y}}}\right)+\left({\frac {y-\mu _{Y}}{\sigma _{Y}}}\right)^{2}\right)\right).\\\end{aligned}}$

$\Box$

随机变量

概率
重要分布

联合分布与独立性

↑ 或者，我们可以将事件定义为 $\{i{\text{th Bernoulli trial is a failure}}\}.$
↑ 'indpt.' 代表独立。
↑ 这是因为存在对（可区分和有序）的无序选择 ${\color {darkgreen}r}$ 次试验以获得 '成功'，从 ${\color {blue}n}$ 次试验中进行不放回抽样（然后剩余的位置用于 '失败'）。
↑ 将罕见事件的发生视为'成功'，而罕见事件的未发生则视为'失败'。
↑ 与二项分布的结果不同，每个 ${\color {red}x}$ 只有一个 可能的 序列。
↑ 从 ${\color {red}x}+{\color {darkgreen}k}-1$ 次试验中进行 ${\color {red}x}$ 次 '失败'（或 ${\color {darkgreen}k}-1$ 次 '成功'）的无序选择。
↑ 对 $k$ 的限制是为了使二项式系数有定义，即该表达式 '有意义'。在实践中，我们很少直接使用这个条件。相反，我们通常直接确定 $x$ 的特定值是否 '有意义'。
↑ 这超出了本书的范围。
↑ 概率 '在区间上均匀分布'。
↑ 与其他轻尾分布（例如正态分布）相比，服从柯西分布的随机变量具有相对较高的概率取 极端值。在图形上，pdf 的 '尾部'（即左端和右端）。
↑ 对于 $a<0$ 的情况类似（不等号方向相反，最终我们将有两个负号相互抵消）。同样，当 $a=0$ 时，随机变量变为非随机常数，因此我们对此情况不感兴趣。
↑ 那么， $p_{1}+p_{2}+\dotsb +p_{k}=1$ 。
↑ 如果该对象被分配到除 $i$ 格以外的格，那么它就 '失败'。
↑ 对于 ${\mathcal {N}}$ 的下标 $k$ 是为了强调该分布是 $k$ 维的，是可选的。

[1] 或者，我们可以将事件定义为 $\{i{\text{th Bernoulli trial is a failure}}\}.$

[2] 'indpt.' 代表独立。

[3] 这是因为存在对（可区分和有序）的无序选择 ${\color {darkgreen}r}$ 次试验以获得 '成功'，从 ${\color {blue}n}$ 次试验中进行不放回抽样（然后剩余的位置用于 '失败'）。

[4] 将罕见事件的发生视为'成功'，而罕见事件的未发生则视为'失败'。

[5] 与二项分布的结果不同，每个 ${\color {red}x}$ 只有一个 可能的 序列。

[6] 从 ${\color {red}x}+{\color {darkgreen}k}-1$ 次试验中进行 ${\color {red}x}$ 次 '失败'（或 ${\color {darkgreen}k}-1$ 次 '成功'）的无序选择。

[7] 对 $k$ 的限制是为了使二项式系数有定义，即该表达式 '有意义'。在实践中，我们很少直接使用这个条件。相反，我们通常直接确定 $x$ 的特定值是否 '有意义'。

[8] 这超出了本书的范围。

[9] 概率 '在区间上均匀分布'。

[10] 与其他轻尾分布（例如正态分布）相比，服从柯西分布的随机变量具有相对较高的概率取 极端值。在图形上，pdf 的 '尾部'（即左端和右端）。

[11] 对于 $a<0$ 的情况类似（不等号方向相反，最终我们将有两个负号相互抵消）。同样，当 $a=0$ 时，随机变量变为非随机常数，因此我们对此情况不感兴趣。

[12] 那么， $p_{1}+p_{2}+\dotsb +p_{k}=1$ 。

[13] 如果该对象被分配到除 $i$ 格以外的格，那么它就 '失败'。

[14] 对于 ${\mathcal {N}}$ 的下标 $k$ 是为了强调该分布是 $k$ 维的，是可选的。

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

	$\operatorname {HypGeo} (650,100,300)$
	$\operatorname {HypGeo} (650,350,100)$
	$\operatorname {HypGeo} (650,250,100)$
	$\operatorname {HypGeo} (650,100,100)$
	$\operatorname {HypGeo} (650,100,350)$

	$\operatorname {Binom} (200,0.001)$
	$\operatorname {Binom} (200,0.999)$
	$\operatorname {Binom} (20000,0.001)$
	$\operatorname {Binom} (20000,0.999)$
	$\operatorname {Binom} (2,0.001)$

	是。
	不是。

正确答案加一分
错误答案的得分
忽略问题的系数

	二项分布。
	泊松分布。
	几何分布。
	负二项分布。
	超几何分布。

	二项分布。
	泊松分布。
	几何分布。
	负二项分布。
	超几何分布。