定义。 (伯努利试验)伯努利试验 是一种只有两个 可能结果的实验,即成功和失败。
备注。
'成功'和'失败'仅作为标签,即我们可以将实验中的任意一个结果定义为'成功'。
定义。 (伯努利试验的独立性)令 S i {\displaystyle S_{i}} 为事件 { i th Bernoulli trial is a success } , i = 1 , 2 , … {\displaystyle \{i{\text{th Bernoulli trial is a success}}\},\quad i=1,2,\dotsc } [ 1] 。如果 S 1 , S 2 , … {\displaystyle S_{1},S_{2},\dotsc } 是独立的 ,则相应的伯努利试验是独立的 。
示例。 如果我们将抛硬币的结果解释为'正面朝上'和'反面朝上',则抛硬币是一个伯努利试验。
练习。
备注。
我们通常将抛硬币的结果解释为'正面朝上'和'反面朝上'。
考虑 n {\displaystyle {\color {blue}n}} 个独立的伯努利试验,每个试验的成功概率为 p {\displaystyle {\color {darkgreen}p}} 。我们希望计算概率 P ( { r successes in n trials } ) {\displaystyle \mathbb {P} (\{{\color {darkgreen}r}{\text{ successes in }}{\color {blue}n}{\text{ trials}}\})} 。
令 S i {\displaystyle S_{i}} 表示事件 { i th Bernoulli trial is a success } , i = 1 , 2 , … {\displaystyle \{i{\text{th Bernoulli trial is a success}}\},\quad i=1,2,\dotsc } ,如上一节所述。现在考虑一个特定的结果序列,其中在 n {\displaystyle {\color {blue}n}} 次试验中有 r {\displaystyle {\color {darkgreen}r}} 次成功: S ⋯ S ⏟ r successes F ⋯ F ⏞ n − r failures {\displaystyle {\color {darkgreen}\underbrace {S\cdots S} _{r{\text{ successes}}}}{\color {red}\overbrace {F\cdots F} ^{{\color {blue}n}-{\color {darkgreen}r}{\text{ failures}}}}} 它的概率是 P ( S 1 ∩ ⋯ S r ∩ S r + 1 c ∩ ⋯ ∩ S n c ) = indpt. P ( S 1 ) ⋯ P ( S r ) P ( S r + 1 c ) ⋯ P ( S n c ) = p r ( 1 − p ) n − r {\displaystyle \mathbb {P} ({\color {darkgreen}S_{1}\cap \dotsb S_{r}}\cap {\color {red}S_{r+1}^{c}\cap \dotsb \cap S_{\color {blue}n}^{c}}){\overset {\text{ indpt. }}{=}}{\color {darkgreen}\mathbb {P} (S_{1})\dotsb \mathbb {P} (S_{r})}{\color {red}\mathbb {P} (S_{r+1}^{c})\cdots \mathbb {P} (S_{\color {blue}n}^{c})}={\color {darkgreen}p^{r}}{\color {red}(1-{\color {darkgreen}p})^{{\color {blue}n}-{\color {darkgreen}r}}}} [ 2] 由于其他一些具有 r {\displaystyle {\color {darkgreen}r}} 次成功的序列在其他试验中出现的概率是 相同的 ,并且有 ( n r ) {\displaystyle {\binom {\color {blue}n}{\color {darkgreen}r}}} 个不同的可能序列[ 3] , P ( { r successes in n trials } ) = ( n r ) p r ( 1 − p ) n − r . {\displaystyle \mathbb {P} (\{{\color {darkgreen}r}{\text{ successes in }}{\color {blue}n}{\text{ trials}}\})={\binom {\color {blue}n}{\color {darkgreen}r}}{\color {darkgreen}p}^{\color {darkgreen}r}{\color {red}(1-{\color {darkgreen}p})^{{\color {blue}n}-{\color {darkgreen}r}}}.} 这是一个服从二项分布 的随机变量的概率质量函数。
定义. (二项分布)
显示了 Binom ( 20 , 0.5 ) , Binom ( 20 , 0.7 ) {\displaystyle {\color {blue}\operatorname {Binom} (20,0.5)},{\color {green}\operatorname {Binom} (20,0.7)}} 和 Binom ( 40 , 0.5 ) {\displaystyle {\color {red}\operatorname {Binom} (40,0.5)}} 的概率质量函数。
一个随机变量 X {\displaystyle X} 服从 二项分布 ,它有 n {\displaystyle {\color {blue}n}} 次独立的伯努利试验,每次试验成功的概率为 p {\displaystyle {\color {darkgreen}p}} ,记作 X ∼ Binom ( n , p ) {\displaystyle X\sim \operatorname {Binom} ({\color {blue}n},{\color {darkgreen}p})} ,如果它的概率质量函数是 f ( x ; n , p ) = ( n x ) p x ( 1 − p ) n − x , x ∈ supp ( X ) = { 0 , 1 , 2 , … , n } . {\displaystyle f({\color {darkgreen}x};{\color {blue}n},{\color {darkgreen}p})={\binom {\color {blue}n}{\color {darkgreen}x}}{\color {darkgreen}p^{x}}{\color {red}(1-{\color {darkgreen}p})^{{\color {blue}n}-{\color {darkgreen}x}}},\quad {\color {darkgreen}x}\in \operatorname {supp} (X)=\{0,1,2,\dotsc ,{\color {blue}n}\}.}
显示了 Binom ( 20 , 0.5 ) , Binom ( 20 , 0.7 ) {\displaystyle {\color {blue}\operatorname {Binom} (20,0.5)},{\color {green}\operatorname {Binom} (20,0.7)}} 和 Binom ( 40 , 0.5 ) {\displaystyle {\color {red}\operatorname {Binom} (40,0.5)}} 的累积分布函数。
伯努利分布只是二项式 分布的一个特例,如下所示
定义. (伯努利分布)
Ber ( 0.8 ) , Ber ( 0.2 ) {\displaystyle {\color {red}\operatorname {Ber} (0.8)},{\color {blue}\operatorname {Ber} (0.2)}} 和 Ber ( 0.5 ) {\displaystyle {\color {darkgreen}\operatorname {Ber} (0.5)}} 的 pmf。
随机变量 X {\displaystyle X} 遵循成功概率为 p {\displaystyle {\color {darkgreen}p}} 的伯努利分布 ,表示为 X ∼ Ber ( p ) {\displaystyle X\sim \operatorname {Ber} ({\color {darkgreen}p})} ,如果其 pmf 为 f ( x ; p ) = p x ( 1 − p ) 1 − x , x ∈ supp ( X ) = { 0 , 1 } . {\displaystyle f({\color {darkgreen}x};{\color {darkgreen}p})={\color {darkgreen}p^{x}}{\color {red}(1-{\color {darkgreen}p})^{1-{\color {darkgreen}x}}},\quad {\color {darkgreen}x}\in \operatorname {supp} (X)=\{0,1\}.}
Ber ( 1 ) , Ber ( 0.8 ) , Ber ( 0.5 ) {\displaystyle {{\color {blue}\operatorname {Ber} (1)},\color {red}\operatorname {Ber} (0.8)},{\color {darkorange}\operatorname {Ber} (0.5)}} 和 Ber ( 0.3 ) {\displaystyle {\color {darkgreen}\operatorname {Ber} (0.3)}} 的 cdf。
备注。
Ber ( p ) = Binom ( 1 , p ) {\displaystyle \operatorname {Ber} ({\color {darkgreen}p})=\operatorname {Binom} (1,{\color {darkgreen}p})} .
这里只涉及一次伯努利 试验,因此称为“伯努利 分布”。
泊松分布可以被视为二项式分布的“极限情况”。
考虑 n {\displaystyle {\color {blue}n}} 个独立的伯努利试验,每次试验成功的概率为 p = λ / n {\displaystyle {\color {darkgreen}p}=\lambda /{\color {blue}n}} 。根据二项分布, P ( r successes in n trials ) = ( n r ) ( λ / n ) r ( 1 − λ / n ) n − r . {\displaystyle \mathbb {P} ({\color {darkgreen}r}{\text{ successes in }}{\color {blue}n}{\text{ trials}})={\binom {\color {blue}n}{\color {darkgreen}r}}{\color {darkgreen}(\lambda /{\color {blue}n})^{r}}{\color {red}(1-\lambda /{\color {blue}n})^{{\color {blue}n}-{\color {darkgreen}r}}}.}
After that, consider an unit time interval, with (positive) occurrence rate λ {\displaystyle \lambda } of a rare event (i.e. the mean of number of occurrence of the rare event is λ {\displaystyle \lambda } ). We can divide the unit time interval to n {\displaystyle {\color {blue}n}} time subintervals of time length 1 / n {\displaystyle 1/{\color {blue}n}} each. If n {\displaystyle {\color {blue}n}} is large and p {\displaystyle {\color {darkgreen}p}} is relatively small , such that the probability for occurrence of two or more rare events at a single time interval is negligible, then the probability for occurrence of exactly one rare event for each time subinterval is p = λ / n {\displaystyle {\color {darkgreen}p}=\lambda /{\color {blue}n}} by definition of mean. Then, we can view the unit time interval as a sequence of n {\displaystyle {\color {blue}n}} Bernoulli trials [ 4] with success probability p = λ / n {\displaystyle {\color {darkgreen}p}=\lambda /{\color {blue}n}} . After that, we can use Binom ( n , λ / n ) {\displaystyle \operatorname {Binom} {({\color {blue}n},\lambda /{\color {blue}n})}} to model the number of occurrences of rare event . To be more precise, P ( r successes in n trials ⏟ r rare events in the unit time ) = ( n r ) ( λ / n ) r ( 1 − λ / n ) n − r = n ( n − 1 ) ⋯ ( n − r + 1 ) r ! ( λ r / n r ) ( 1 − λ / n ) n − r = ( λ r / r ! ) ( 1 − 1 / n ⏟ → 0 as n → ∞ ) ⋯ ( 1 − ( r − 1 ) / n ⏟ → 0 as n → ∞ ) ⏞ → 1 as n → ∞ ( 1 − λ / n ) n − r ⏞ → n as n → ∞ ⏟ → e − λ as n → ∞ → e − λ λ r / r ! as n → ∞ . {\displaystyle {\begin{aligned}\mathbb {P} (\underbrace {{\color {darkgreen}r}{\text{ successes in }}{\color {blue}n}{\text{ trials}}} _{{\color {darkgreen}r}{\text{ rare events in the unit time}}})&={\binom {\color {blue}n}{\color {darkgreen}r}}{\color {darkgreen}(\lambda /{\color {blue}n})^{r}}{\color {red}(1-\lambda /{\color {blue}n})^{{\color {blue}n}-{\color {darkgreen}r}}}\\&={\frac {{\color {blue}n}({\color {blue}n}-1)\dotsb ({\color {blue}n}-{\color {darkgreen}r}+1)}{{\color {darkgreen}r}!}}(\lambda ^{\color {darkgreen}r}/{\color {blue}n}^{\color {darkgreen}r})(1-\lambda /{\color {blue}n})^{{\color {blue}n}-{\color {darkgreen}r}}\\&=(\lambda ^{\color {darkgreen}r}/{\color {darkgreen}r}!)\overbrace {(1-\underbrace {1/{\color {blue}n}} _{\to 0{\text{ as }}n\to \infty })\dotsb {\big (}1-\underbrace {({\color {darkgreen}r-1})/{\color {blue}n}} _{\to 0{\text{ as }}n\to \infty }{\big )}} ^{\to 1{\text{ as }}n\to \infty }\underbrace {(1-\lambda /{\color {blue}n})^{\overbrace {{\color {blue}n}-{\color {darkgreen}r}} ^{\to n{\text{ as }}n\to \infty }}} _{\to e^{-\lambda }{\text{ as }}n\to \infty }\\&\to e^{-\lambda }\lambda ^{\color {darkgreen}r}/{\color {darkgreen}r}!{\text{ as }}n\to \infty .\end{aligned}}} This is the pmf of a random variable following the Poisson distribution , and this result is known as the Poisson limit theorem (or law of rare events). We will introduce it formally after introducing the definition of Poisson distribution .
定义。 (泊松分布)
Pois ( 1 ) , Pois ( 4 ) {\displaystyle {\color {darkorange}\operatorname {Pois} (1)},{\color {purple}\operatorname {Pois} (4)}} 和 Pois ( 10 ) {\displaystyle {\color {royalblue}\operatorname {Pois} (10)}} 的概率质量函数。
一个随机变量 X {\displaystyle X} 服从参数为正数 λ {\displaystyle \lambda } 的 泊松分布 ,记为 X ∼ Pois ( λ ) {\displaystyle X\sim \operatorname {Pois} (\lambda )} ,如果它的概率质量函数为 f ( x ; λ ) = e − λ λ x / x ! , x ∈ supp ( X ) = { 0 , 1 , 2 , … } . {\displaystyle f({\color {darkgreen}x};\lambda )=e^{-\lambda }\lambda ^{\color {darkgreen}x}/{\color {darkgreen}x}!,\quad {\color {darkgreen}x}\in \operatorname {supp} (X)=\{0,1,2,\dotsc \}.}
Pois ( 1 ) , Pois ( 4 ) {\displaystyle {\color {darkorange}\operatorname {Pois} (1)},{\color {purple}\operatorname {Pois} (4)}} 和 Pois ( 10 ) {\displaystyle {\color {royalblue}\operatorname {Pois} (10)}} 的累积分布函数。
备注。
因此,对于较大的 n {\displaystyle {\color {blue}n}} 和相对较小的 p = λ / n {\displaystyle {\color {darkgreen}p}=\lambda /{\color {blue}n}} ,可以使用泊松分布来近似二项分布。
假设有一系列独立的伯努利试验,成功概率为 p {\displaystyle {\color {darkgreen}p}} 。我们希望计算概率 P ( { x failures before first success } ) {\displaystyle \mathbb {P} (\{{\color {red}x}{\text{ failures before first success}}\})} 。通过考虑以下结果序列: F ⋯ F ⏟ x failures S , {\displaystyle {\color {red}\underbrace {F\cdots F} _{{\color {red}x}{\text{ failures}}}}{\color {darkgreen}S},} 我们可以计算得到 P ( { x failures before first success } ) = ( 1 − p ) x p , x ∈ supp ( X ) = { 0 , 1 , 2 , … } {\displaystyle \mathbb {P} (\{{\color {red}x}{\text{ failures before first success}}\})={\color {red}(1-{\color {darkgreen}p})^{x}}{\color {darkgreen}p},\quad {\color {red}x}\in \operatorname {supp} (X)=\{0,1,2,\dotsc \}} [ 5] 这是遵循几何分布 的随机变量的概率质量函数。
定义. (几何分布)
Geo ( 0.2 ) , Geo ( 0.5 ) {\displaystyle {\color {green}\operatorname {Geo} (0.2)},{\color {blue}\operatorname {Geo} (0.5)}} 和 Geo ( 0.8 ) {\displaystyle {\color {red}\operatorname {Geo} (0.8)}} 的概率质量函数。
如果随机变量 X {\displaystyle X} 遵循 几何分布 ,且其 成功概率 为 p {\displaystyle {\color {darkgreen}p}} ,记作 X ∼ Geo ( p ) {\displaystyle X\sim \operatorname {Geo} ({\color {darkgreen}p})} ,那么它的概率质量函数为 f ( x ; p ) = ( 1 − p ) x p , x ∈ supp ( X ) = { 0 , 1 , 2 , … } . {\displaystyle f({\color {red}x};{\color {darkgreen}p})={\color {red}(1-{\color {darkgreen}p})^{x}}{\color {darkgreen}p},\quad {\color {red}x}\in \operatorname {supp} (X)=\{0,1,2,\dotsc \}.}
Geo ( 0.2 ) , Geo ( 0.5 ) {\displaystyle {\color {green}\operatorname {Geo} (0.2)},{\color {blue}\operatorname {Geo} (0.5)}} 和 Geo ( 0.8 ) {\displaystyle {\color {red}\operatorname {Geo} (0.8)}} 的累积分布函数。
备注。
从 f ( 0 ; p ) {\displaystyle f(0;{\color {darkgreen}p})} 开始的概率序列,随着输入值 x {\displaystyle {\color {red}x}} 一次又一次地增加(即 p , ( 1 − p ) p , ( 1 − p ) 2 p , … {\displaystyle {\color {darkgreen}p},{\color {red}(1-{\color {darkgreen}p})}{\color {darkgreen}p},{\color {red}(1-{\color {darkgreen}p})^{2}}{\color {darkgreen}p},\dotsc } )是一个 等比数列 ,因此得名 “几何 分布”。
对于另一种定义,pmf 则为 ( 1 − p ) x − 1 p {\displaystyle (1-p)^{x-1}p} ,这是概率 P ( { x trials before first success } ) {\displaystyle \mathbb {P} (\{x{\text{ trials before first success}}\})} ,其支持为 supp ( X ) = { 1 , 2 , … } {\displaystyle \operatorname {supp} (X)=\{1,2,\dotsc \}} .
证明。 P ( X > m + n | X ≥ m ) = def P ( X > m + n ∩ X ≥ m ) ⏞ = X > m + n P ( X ≥ m ) = def p ( ( 1 − p ) m + n + 1 + ( 1 − p ) m + n + 2 + ⋯ ) p ( ( 1 − p ) m + ( 1 − p ) m + 1 + ⋯ ) = ( 1 − p ) m + n + 1 / ( 1 − ( 1 − p ) ) ( 1 − p ) m / ( 1 − ( 1 − p ) ) 由几何级数公式 = ( 1 − p ) n + 1 ⋅ p p = p ⋅ ( 1 − p ) n + 1 1 − ( 1 − p ) = p ( ( 1 − p ) n + 1 + ( 1 − p ) n + 2 + ⋯ ) 由几何级数公式 = def P ( X > n ) 因为 X > n ⇔ X = n + 1 , n + 2 , … . {\displaystyle {\begin{aligned}\mathbb {P} (X>m+n|X\geq m)&{\overset {\text{ def }}{=}}{\frac {\mathbb {P} (\overbrace {X>m+n\cap X\geq m)} ^{=X>m+n}}{\mathbb {P} (X\geq m)}}\\&{\overset {\text{ def }}{=}}{\frac {{\cancel {p}}\left((1-p)^{m+n+1}+(1-p)^{m+n+2}+\dotsb \right)}{{\cancel {p}}\left((1-p)^{m}+(1-p)^{m+1}+\dotsb \right)}}\\&={\frac {(1-p)^{{\cancel {m}}+n+1}{\cancel {/{\big (}1-(1-p){\big )}}}}{{\cancel {(1-p)^{m}}}{\cancel {/{\big (}1-(1-p){\big )}}}}}&{\text{by geometric series formula}}\\&=(1-p)^{n+1}\cdot {\frac {\color {darkgreen}p}{\color {blue}p}}\\&={\color {darkgreen}p}\cdot {\frac {(1-p)^{n+1}}{\color {blue}1-(1-p)}}\\&={\color {darkgreen}p}\left((1-p)^{n+1}+(1-p)^{n+2}+\dotsb \right)&{\text{by geometric series formula}}\\&{\overset {\text{ def }}{=}}\mathbb {P} (X>n)&{\text{since }}X>n\Leftrightarrow X=n+1,n+2,\dotsc .\\\end{aligned}}}
特别地, X > m + n ∩ X ≥ m = X > m + n {\displaystyle X>m+n\cap X\geq m=X>m+n} 因为 X > m + n ⏟ X = m + n + 1 , m + n + 2 , … ⊊ X ≥ m ⏟ X = m , m + 1 , … {\displaystyle \underbrace {X>m+n} _{X=m+n+1,m+n+2,\dotsc }\subsetneq \underbrace {X\geq m} _{X=m,m+1,\dotsc }} .
◻ {\displaystyle \Box }
Consider a sequence of independent Bernoulli trials with success probability p {\displaystyle {\color {darkgreen}p}} . We would like to calculate the probability P ( { x failures before k th success } ) {\displaystyle \mathbb {P} (\{{\color {red}x}{\text{ failures before }}{\color {darkgreen}k}{\text{th success}}\})} . By considering this sequence of outcomes: F ⋯ F ⏟ x 1 failures S F ⋯ F ⏟ x 2 failures S ⋯ F ⋯ F ⏟ x k failures ⏞ x + k − 1 trials S ⏞ k th success , x 1 + x 2 + ⋯ + x k = x , {\displaystyle \overbrace {{\color {red}\underbrace {F\cdots F} _{x_{1}{\text{ failures}}}}{\color {darkgreen}S}{\color {red}\underbrace {F\cdots F} _{x_{2}{\text{ failures}}}}{\color {darkgreen}S}\cdots {\color {red}\underbrace {F\cdots F} _{x_{k}{\text{ failures}}}}} ^{{\color {red}x}+{\color {darkgreen}k}-1{\text{ trials}}}{\color {darkgreen}\overbrace {S} ^{k{\text{th success}}}},\quad {\color {red}x_{1}}+{\color {red}x_{2}}+\dotsb +{\color {red}x_{k}}={\color {red}x},} we can calculate that P ( { x failures before k th success } ) = ( 1 − p ) x p k , x ∈ supp ( X ) = { 0 , 1 , 2 , … } . {\displaystyle \mathbb {P} (\{{\color {red}x}{\text{ failures before }}{\color {darkgreen}k}{\text{th success}}\})={\color {red}(1-{\color {darkgreen}p})^{x}}{\color {darkgreen}p^{k}},\quad {\color {red}x}\in \operatorname {supp} (X)=\{0,1,2,\dotsc \}.} Since the probability of other sequences with some of x {\displaystyle {\color {red}x}} failures occuring in other trials (and some of k − 1 {\displaystyle {\color {darkgreen}k}-1} successes (excluding the k {\displaystyle {\color {darkgreen}k}} th success, which must occur in the last trial) occuring in other trials), is the same , and there are ( x + k − 1 x ) {\displaystyle {\binom {{\color {red}x}+{\color {darkgreen}k}-1}{\color {red}x}}} (or ( x + k − 1 k − 1 ) {\displaystyle {\binom {{\color {red}x}+{\color {darkgreen}k}-1}{{\color {green}k}-1}}} , which is the same numerically) distinct possible sequences [ 6] , P ( { x failures before k th success } ) = ( x + k − 1 x ) ( 1 − p ) x p k , x ∈ supp ( X ) = { 0 , 1 , 2 , … } . {\displaystyle \mathbb {P} (\{{\color {red}x}{\text{ failures before }}{\color {darkgreen}k}{\text{th success}}\})={\binom {{\color {red}x}+{\color {darkgreen}k}-1}{\color {red}x}}{\color {red}(1-{\color {darkgreen}p})^{x}}{\color {darkgreen}p^{k}},\quad {\color {red}x}\in \operatorname {supp} (X)=\{0,1,2,\dotsc \}.} This is the pmf of a random variable following the negative binomial distribution .
定义. (负二项分布)
NB ( 10 , 0.9 ) , NB ( 10 , 0.8 ) , NB ( 10 , 0.5 ) {\displaystyle {\color {darkblue}\operatorname {NB} (10,0.9)},{\color {red}\operatorname {NB} (10,0.8)},{\color {darkorange}\operatorname {NB} (10,0.5)}} 和 NB ( 10 , 0.3 ) {\displaystyle {\color {darkgreen}\operatorname {NB} (10,0.3)}} 的概率质量函数。
一个随机变量 X {\displaystyle X} 遵循 负二项分布 ,其 成功概率 为 p {\displaystyle {\color {darkgreen}p}} ,记为 X ∼ NB ( k , p ) {\displaystyle X\sim \operatorname {NB} ({\color {darkgreen}k,p})} ,如果其概率质量函数(pmf)为 f ( x ; k , p ) = ( x + k − 1 x ) ( 1 − p ) x p k , x ∈ supp ( X ) = { 0 , 1 , 2 , … } . {\displaystyle f({\color {red}x};{\color {darkgreen}k,p})={\binom {{\color {red}x}+{\color {darkgreen}k}-1}{\color {red}x}}{\color {red}(1-{\color {darkgreen}p})^{x}}{\color {darkgreen}p^{k}},\quad {\color {red}x}\in \operatorname {supp} (X)=\{0,1,2,\dotsc \}.}
NB ( 10 , 0.9 ) , NB ( 10 , 0.8 ) , NB ( 10 , 0.5 ) {\displaystyle {\color {royalblue}\operatorname {NB} (10,0.9)},{\color {red}\operatorname {NB} (10,0.8)},{\color {darkorange}\operatorname {NB} (10,0.5)}} 和 NB ( 10 , 0.3 ) {\displaystyle {\color {darkgreen}\operatorname {NB} (10,0.3)}} 的累积分布函数(cdf)。
考虑从一个大小为 N {\displaystyle N} 的总体中,不放回地抽取大小为 n {\displaystyle n} 的样本,该总体包含 K {\displaystyle K} 个类型 1 的物体和 N − K {\displaystyle N-K} 个其他类型的物体。那么, P ( { k type 1 objects are found when n objects are drawn from N objects } ) = ( K k ) ⏟ type 1 ( N − K n − k ) ⏞ another type / ( N n ) ⏟ all outcomes , k ∈ { max { n − N + K , 0 } , … , min { K , n } } {\displaystyle \mathbb {P} (\{k{\text{ type 1 objects are found when }}n{\text{ objects are drawn from }}N{\text{ objects}}\})=\underbrace {\binom {K}{k}} _{\text{type 1}}\overbrace {\binom {N-K}{n-k}} ^{\text{another type}}{\bigg /}\underbrace {\binom {N}{n}} _{\text{all outcomes}},\quad k\in {\big \{}\max\{n-N+K,0\},\dotsc ,\min {\{K,n\}}{\big \}}} [ 7] .
( K k ) {\displaystyle {\binom {K}{k}}} : 从 K {\displaystyle K} 个(可区分的)类型 1 的对象中,无放回地选择 k {\displaystyle k} 个对象的无序选择。
( N − K n − k ) {\displaystyle {\binom {N-K}{n-k}}} : 从 N − K {\displaystyle N-K} 个(可区分的)其他类型的对象中,无放回地选择 n − k {\displaystyle n-k} 个对象的无序选择。
( N n ) {\displaystyle {\binom {N}{n}}} : 从 N {\displaystyle N} 个(可区分的)对象中,无放回地选择 n {\displaystyle n} 个对象的无序选择。
这是遵循 超几何分布 的随机变量的概率质量函数。
定义。 (超几何分布)
HypGeo ( 500 , 50 , 100 ) , HypGeo ( 500 , 60 , 200 ) {\displaystyle {\color {blue}\operatorname {HypGeo} (500,50,100)},{\color {darkgreen}\operatorname {HypGeo} (500,60,200)}} 和 HypGeo ( 500 , 70 , 300 ) {\displaystyle {\color {red}\operatorname {HypGeo} (500,70,300)}} 的概率质量函数。
随机变量 X {\displaystyle X} 服从 超几何分布 ,从包含 K {\displaystyle K} 个类型 1 的对象和 N − K {\displaystyle N-K} 个其他类型对象的集合中抽取 n {\displaystyle n} 个对象,记为 X ∼ HypGeo ( N , K , n ) {\displaystyle X\sim \operatorname {HypGeo} (N,K,n)} ,如果它的概率质量函数是 f ( k ; N , K , n ) = ( K k ) ( N − K n − k ) / ( N n ) , k ∈ supp ( X ) = { max { n − N + K , 0 } , … , min { K , n } } . {\displaystyle f(k;N,K,n)={\binom {K}{k}}{\binom {N-K}{n-k}}{\bigg /}{\binom {N}{n}},\quad k\in \operatorname {supp} (X)={\big \{}\max\{n-N+K,0\},\dotsc ,\min {\{K,n\}}{\big \}}.}
HypGeo ( 500 , 50 , 100 ) , HypGeo ( 500 , 60 , 200 ) {\displaystyle {\color {blue}\operatorname {HypGeo} (500,50,100)},{\color {darkgreen}\operatorname {HypGeo} (500,60,200)}} 和 HypGeo ( 500 , 70 , 300 ) {\displaystyle {\color {red}\operatorname {HypGeo} (500,70,300)}} 的累积分布函数。
备注。
概率质量函数有点类似于 超几何 级数 [ 8] ,因此得名 “超几何 分布”。
这种类型的分布是所有具有有限支撑的离散分布的推广,例如伯努利分布和超几何分布。
这种类型的分布的另一个特例是 离散均匀分布 ,它类似于 连续均匀分布 (将在后面讨论)。
定义。 (有限离散分布)随机变量 X {\displaystyle X} 遵循 有限离散分布 ,其向量为 x = ( x 1 , … , x n ) T {\displaystyle \mathbf {x} =(x_{1},\dotsc ,x_{n})^{T}} ,概率向量为 p = ( p 1 , … , p n ) T , p 1 , … , and p n ≥ 0 , p 1 + ⋯ + p n = 1 {\displaystyle \mathbf {p} =(p_{1},\dotsc ,p_{n})^{T},\quad p_{1},\dotsc ,{\text{ and }}p_{n}\geq 0,p_{1}+\dotsb +p_{n}=1} ,表示为 X ∼ FD ( x , p ) {\displaystyle X\sim \operatorname {FD} (\mathbf {x} ,\mathbf {p} )} ,如果其概率质量函数为 f ( x i ; p ) = p i , i = 1 , … , or n . {\displaystyle f(x_{i};\mathbf {p} )=p_{i},\quad i=1,\dotsc ,{\text{ or }}n.}
备注。
对于均值和方差,我们可以直接根据定义进行计算。有限离散分布没有特殊的公式。
定义。 (离散均匀分布)离散均匀分布 ,表示为 D U { x 1 , … , x n } {\displaystyle \operatorname {D} {\mathcal {U}}\{x_{1},\dotsc ,x_{n}\}} ,是 FD ( x , p ) , p = ( 1 n , … , 1 n ⏟ n times ) T {\displaystyle \operatorname {FD} (\mathbf {x} ,\mathbf {p} ),\quad \mathbf {p} ={\bigg (}\underbrace {{\frac {1}{n}},\dotsc ,{\frac {1}{n}}} _{n{\text{ times}}}{\bigg )}^{T}} .
备注。
其概率质量函数为 f ( x i ) = 1 n , i = 1 , … , or n . {\displaystyle f(x_{i})={\frac {1}{n}},\quad i=1,\dotsc ,{\text{ or }}n.}
示例。 假设随机变量 X ∼ FD ( ( 1 , 2 , 3 ) T , ( 0.2 , 0.3 , 0.5 ) T ) {\displaystyle X\sim \operatorname {FD} {\big (}(1,2,3)^{T},(0.2,0.3,0.5)^{T}{\big )}} 。那么, P ( X = 1 ) = 0.2 , P ( X = 2 ) = 0.3 , and P ( X = 3 ) = 0.5. {\displaystyle \mathbb {P} (X=1)=0.2,\mathbb {P} (X=2)=0.3,{\text{ and }}\mathbb {P} (X=3)=0.5.} 概率质量函数的图形
|
| *
| |
| * |
| * | |
| | | |
*----*----*----*-------
1 2 3
示例。 假设一个随机变量 X ∼ D U { 1 , 2 , 3 } {\displaystyle X\sim \operatorname {D} {\mathcal {U}}\{1,2,3\}} . 那么, P ( X = 1 ) = P ( X = 2 ) = P ( X = 3 ) = 1 3 . {\displaystyle \mathbb {P} (X=1)=\mathbb {P} (X=2)=\mathbb {P} (X=3)={\frac {1}{3}}.} 概率质量函数的示例
|
|
|
| * * *
| | | |
| | | |
*----*----*----*-------
1 2 3
练习。
连续均匀分布 是对“无偏好”的建模,即其支持域上所有相同长度的区间都是 等概率 [ 9] (可以从对应连续均匀分布的概率密度函数 (pdf) 中看出)。 此外还有 离散 均匀分布,但它不像 连续 均匀分布那么重要。因此,从现在开始,简称为“均匀分布”指的是 连续 均匀分布,而不是离散均匀分布。
定义。 (均匀分布)
U [ a , b ] {\displaystyle {\color {dodgerblue}{\mathcal {U}}[a,b]}} 的概率密度函数 (pdf)。
一个随机变量 X {\displaystyle X} 遵循 均匀分布 ,记为 X ∼ U [ a , b ] {\displaystyle X\sim {\mathcal {U}}[a,b]} ,如果其概率密度函数 (pdf) 为 f ( x ) = 1 / ( b − a ) , x ∈ supp ( X ) = [ a , b ] , and a ≤ b . {\displaystyle f(x)=1/(b-a),\quad x\in \operatorname {supp} (X)=[a,b],{\text{ and }}a\leq b.}
备注。
U [ a , b ] {\displaystyle {\mathcal {U}}[a,b]} 的支持域也可以是 [ a , b ) , ( a , b ] {\displaystyle [a,b),(a,b]} 或 ( a , b ) {\displaystyle (a,b)} ,而不会影响事件的概率,因为使用 pdf 在 单个 点上计算的概率无论如何都是 零 。
分布 U [ 0 , 1 ] {\displaystyle {\mathcal {U}}[0,1]} 是 标准均匀分布 。
命题。
U [ a , b ] {\displaystyle {\color {dodgerblue}{\mathcal {U}}[a,b]}} 的累积分布函数 (cdf)。
(均匀分布的累积分布函数) U [ a , b ] {\displaystyle {\mathcal {U}}[a,b]} 的累积分布函数为 F ( x ) = { 0 , x < a ; ( x − a ) / ( b − a ) , a ≤ x ≤ b ; 1 , x > b . {\displaystyle F(x)={\begin{cases}0,&x<a;\\(x-a)/(b-a),&a\leq x\leq b;\\1,&x>b.\end{cases}}}
证明: F ( x ) = ∫ − ∞ x 1 { a ≤ x ≤ b } b − a d y = 1 b − a ∫ a x 1 { a ≤ x ≤ b } d y = { 0 / ( b − a ) , x < a ; [ y ] a x / ( b − a ) , a ≤ x ≤ b ; [ y ] a b / ( b − a ) , x > b . {\displaystyle F(x)=\int _{-\infty }^{x}{\frac {\mathbf {1} \{a\leq x\leq b\}}{b-a}}\,dy={\frac {1}{b-a}}\int _{a}^{x}\mathbf {1} \{a\leq x\leq b\}\,dy={\begin{cases}0/(b-a),&x<a;\\[][y]_{a}^{x}/(b-a),&a\leq x\leq b;\\[][y]_{a}^{b}/(b-a),&x>b.\end{cases}}} 因此,结果成立。
◻ {\displaystyle \Box }
具有速率参数 λ {\displaystyle \lambda } 的指数 分布通常用于描述速率为 λ {\displaystyle \lambda } 的罕见事件的到达间隔时间 。
将此与泊松 分布进行比较,指数 分布描述了罕见事件的到达间隔时间 ,而泊松 分布描述了固定时间间隔内罕见事件的发生次数 。
根据速率 的定义,当速率 ↑ {\displaystyle \uparrow } 时,到达间隔时间 ↓ {\displaystyle \downarrow } (即罕见事件的频率 ↑ {\displaystyle \uparrow } )。
因此,我们希望当 λ ↑ {\displaystyle \lambda \uparrow } (即 pdf 在较小的 x {\displaystyle x} 处具有更高的值,当 λ ↑ {\displaystyle \lambda \uparrow } )时,pdf 在包含较小 x {\displaystyle x} 值的区间的面积 ↑ {\displaystyle \uparrow } 当 λ ↑ {\displaystyle \lambda \uparrow } 。
此外,由于在固定速率 λ {\displaystyle \lambda } 下,到达时间间隔越长发生的可能性越小。因此,直观地,我们也希望 pdf 是一个严格的 递减 函数,这样发生的概率(pdf 在某个区间内的面积) ↓ {\displaystyle \downarrow } 当 x ↑ {\displaystyle x\uparrow } 。
我们可以看到,指数分布的 pdf 满足这两个性质。
证明: 假设 X ∼ Exp ( λ ) {\displaystyle X\sim \operatorname {Exp} (\lambda )} 。 X {\displaystyle X} 的累积分布函数 (CDF) 为 F ( x ) = ∫ − ∞ x λ e − λ y 1 { y ≥ 0 } d y = { ∫ 0 x λ e − λ y d y , x ≥ 0 ; 0 , x < 0 ( 当 x < 0 , x ∉ supp ( X ) , 因此 F ( x ) = P ( X ≤ x ) = 0 ) = 1 { x ≥ 0 } λ ∫ 0 x e − λ y d y = 1 { x ≥ 0 } λ − λ [ e − λ y ] 0 x = − 1 { x ≥ 0 } ( e − λ x − 1 ) = ( 1 − e − λ x ) 1 { x ≥ 0 } . {\displaystyle {\begin{aligned}F(x)&=\int _{-\infty }^{x}\lambda e^{-\lambda y}\mathbf {1} \{y\geq 0\}\,dy\\&={\begin{cases}\int _{0}^{x}\lambda e^{-\lambda y}\,dy,&x\geq 0;\\0,&x<0\\\end{cases}}&\left({\text{当 }}x<0,x\notin \operatorname {supp} (X),{\text{ 因此 }}F(x)=\mathbb {P} (X\leq x)=0\right)\\&=\mathbf {1} \{x\geq 0\}\lambda \int _{0}^{x}e^{-\lambda y}\,dy\\&=\mathbf {1} \{x\geq 0\}{\frac {\lambda }{-\lambda }}[e^{-\lambda }y]_{0}^{x}\\&=-\mathbf {1} \{x\geq 0\}(e^{-\lambda x}-1)\\&=(1-e^{-\lambda x})\mathbf {1} \{x\geq 0\}.\\\end{aligned}}}
◻ {\displaystyle \Box }
证明。 P ( X > s + t | X > s ) = def P ( X > s + t ∩ X > s ) P ( X > s ) = P ( X > s + t ) P ( X > s ) = 1 − ( 1 − e − λ ( s + t ) ) 1 − ( 1 − e − λ s ) = e − λ ( s + t ) e − λ s = e − λ t = P ( X > t ) . {\displaystyle \mathbb {P} (X>s+t|X>s){\overset {\text{ def }}{=}}{\frac {\mathbb {P} (X>s+t\cap X>s)}{\mathbb {P} (X>s)}}={\frac {\mathbb {P} (X>s+t)}{\mathbb {P} (X>s)}}={\frac {1-(1-e^{-\lambda (s+t)})}{1-(1-e^{-\lambda s})}}={\frac {e^{-\lambda (s+t)}}{e^{-\lambda s}}}=e^{-\lambda t}=\mathbb {P} (X>t).}
◻ {\displaystyle \Box }
伽马 分布是广义的 指数 分布,从某种意义上说,我们也可以改变 形状 的 指数 分布的 pdf。
定义。 (伽马分布)
Gamma ( 1 , 1 ) , Gamma ( 2 , 1 ) , Gamma ( 3 , 1 ) {\displaystyle {\color {red}\operatorname {Gamma} (1,1)},{\color {green}\operatorname {Gamma} (2,1)},{\color {blue}\operatorname {Gamma} (3,1)}} 和 Gamma ( 3 , 0.5 ) {\displaystyle {\color {magenta}\operatorname {Gamma} (3,0.5)}} 的 PDF。
随机变量 X {\displaystyle X} 服从 伽玛分布 ,其中 形状 参数为正数 α {\displaystyle \alpha } ,速率 参数为正数 λ {\displaystyle \lambda } ,记为 X ∼ Gamma ( α , λ ) {\displaystyle X\sim \operatorname {Gamma} (\alpha ,\lambda )} ,如果其 PDF 为 f ( x ) = λ α x α − 1 e − λ x Γ ( α ) , x ∈ supp ( X ) = [ 0 , ∞ ) . {\displaystyle f(x)={\frac {\lambda ^{\alpha }x^{\alpha -1}e^{-\lambda x}}{\Gamma (\alpha )}},\quad x\in \operatorname {supp} (X)=[0,\infty ).}
Gamma ( 1 , 1 ) , Gamma ( 2 , 1 ) , Gamma ( 3 , 1 ) {\displaystyle {\color {red}\operatorname {Gamma} (1,1)},{\color {green}\operatorname {Gamma} (2,1)},{\color {blue}\operatorname {Gamma} (3,1)}} 和 Gamma ( 3 , 0.5 ) {\displaystyle {\color {magenta}\operatorname {Gamma} (3,0.5)}} 的 CDF。
贝塔 分布是 U [ 0 , 1 ] {\displaystyle {\mathcal {U}}[0,1]} 的推广,因为我们可以通过使用 两个形状参数 来改变 PDF 的 形状 。
定义。 (贝塔分布)
以下为 Beta ( 0.5 , 0.5 ) , Beta ( 5 , 1 ) , Beta ( 1 , 3 ) {\displaystyle {\color {red}\operatorname {Beta} (0.5,0.5)},{\color {royalblue}\operatorname {Beta} (5,1)},{\color {green}\operatorname {Beta} (1,3)}} , Beta ( 2 , 2 ) {\displaystyle {\color {purple}\operatorname {Beta} (2,2)}} 和 Beta ( 2 , 5 ) {\displaystyle {\color {darkorange}\operatorname {Beta} (2,5)}} 的 pdf 文件。
随机变量 X {\displaystyle X} 服从 beta 分布 ,其正形状参数为 α {\displaystyle \alpha } 和 β {\displaystyle \beta } ,记为 X ∼ Beta ( α , β ) {\displaystyle X\sim \operatorname {Beta} (\alpha ,\beta )} ,如果其 pdf 为 f ( x ) = Γ ( α + β ) Γ ( α ) Γ ( β ) x α − 1 ( 1 − x ) β − 1 , x ∈ supp ( X ) = [ 0 , 1 ] . {\displaystyle f(x)={\frac {\Gamma (\alpha +\beta )}{\Gamma (\alpha )\Gamma (\beta )}}x^{\alpha -1}(1-x)^{\beta -1},\quad x\in \operatorname {supp} (X)=[0,1].}
以下为 Beta ( 0.5 , 0.5 ) , Beta ( 5 , 1 ) , Beta ( 1 , 3 ) {\displaystyle {\color {red}\operatorname {Beta} (0.5,0.5)},{\color {royalblue}\operatorname {Beta} (5,1)},{\color {green}\operatorname {Beta} (1,3)}} , Beta ( 2 , 2 ) {\displaystyle {\color {purple}\operatorname {Beta} (2,2)}} 和 Beta ( 2 , 5 ) {\displaystyle {\color {darkorange}\operatorname {Beta} (2,5)}} 的 cdf 文件。
备注。
Beta ( 1 , 1 ) ≡ U [ 0 , 1 ] {\displaystyle \operatorname {Beta} (1,1)\equiv {\mathcal {U}}[0,1]} ,因为 Beta ( 1 , 1 ) {\displaystyle \operatorname {Beta} (1,1)} 的 pdf 为
f ( x ) = Γ ( 2 ) ⏞ = 1 ! = 1 Γ ( 1 ) ⏟ = 0 ! = 1 Γ ( 1 ) x 1 − 1 ( 1 − x ) 1 − 1 1 { 0 ≤ x ≤ 1 } = 1 { 0 ≤ x ≤ 1 } , {\displaystyle f(x)={\frac {\overbrace {\Gamma (2)} ^{=1!=1}}{\underbrace {\Gamma (1)} _{=0!=1}\Gamma (1)}}x^{1-1}(1-x)^{1-1}\mathbf {1} \{0\leq x\leq 1\}=\mathbf {1} \{0\leq x\leq 1\},}
它是 U [ 0 , 1 ] {\displaystyle {\mathcal {U}}[0,1]} 的概率密度函数。
柯西分布是 重尾 分布 [ 10] 。因此,它是一个“病态”分布,因为它具有一些反直觉的性质,例如,尽管它的均值和方差从其图像直接看似乎是定义好的,但实际上它的均值和方差是未定义的。
备注。
这个定义指的是柯西分布的 特例 。更准确地说,柯西分布的完整定义中还包含一个 尺度 参数,这里概率密度函数中的尺度参数被设置为 1。
由于 f ( θ + x ) = f ( θ − x ) {\displaystyle f(\theta +x)=f(\theta -x)} ,所以概率密度函数关于 θ {\displaystyle \theta } 对称。
正态分布或高斯分布是自然界中常见的现象,非常奇妙。这可能是因为根据 中心极限定理 ,样本均值或样本总和通常 近似 服从 正态 分布。因此,正态分布在统计学中非常重要。
定义。 (正态分布)
N ( 0 , 0.2 ) , N ( 0 , 1 ) , N ( 0 , 5 ) {\displaystyle {\color {blue}{\mathcal {N}}(0,0.2)},{\color {red}{\mathcal {N}}(0,1)},{\color {darkorange}{\mathcal {N}}(0,5)}} 和 N ( − 2 , 0.5 ) {\displaystyle {\color {darkgreen}{\mathcal {N}}(-2,0.5)}} 的 PDF 文件。
如果一个随机变量 X {\displaystyle X} 服从 正态分布 ,其均值 为 μ {\displaystyle \mu } ,方差 为 σ 2 {\displaystyle \sigma ^{2}} ,记为 X ∼ N ( μ , σ 2 ) {\displaystyle X\sim {\mathcal {N}}(\mu ,\sigma ^{2})} ,则其 PDF 为 f ( x ) = 1 2 π σ 2 exp ( − ( x − μ ) 2 2 σ 2 ) , x ∈ supp ( X ) = R . {\displaystyle f(x)={\frac {1}{\sqrt {2\pi \sigma ^{2}}}}\exp \left(-{\frac {(x-\mu )^{2}}{2\sigma ^{2}}}\right),\quad x\in \operatorname {supp} (X)=\mathbb {R} .}
N ( 0 , 0.2 ) , N ( 0 , 1 ) , N ( 0 , 5 ) {\displaystyle {\color {blue}{\mathcal {N}}(0,0.2)},{\color {red}{\mathcal {N}}(0,1)},{\color {darkorange}{\mathcal {N}}(0,5)}} 和 N ( − 2 , 0.5 ) {\displaystyle {\color {darkgreen}{\mathcal {N}}(-2,0.5)}} 的 CDF 文件。
以下分布在统计学中尤为重要,它们都与正态分布相关。我们将简要介绍它们。
卡方分布是伽马分布的一个特例,也与标准正态分布相关。
定义. (卡方分布)
的概率密度函数 χ 1 2 , χ 2 2 , χ 3 2 , χ 4 2 , χ 6 2 {\displaystyle {\color {darkorange}\chi _{1}^{2}},{\color {green}\chi _{2}^{2}},{\color {royalblue}\chi _{3}^{2}},{\color {blue}\chi _{4}^{2}},{\color {purple}\chi _{6}^{2}}} 和 χ 9 2 {\displaystyle {\color {red}\chi _{9}^{2}}} .
具有正的自由度 ν {\displaystyle {\color {blue}\nu }} 的卡方分布,记为 χ ν 2 {\displaystyle \chi _{\color {blue}\nu }^{2}} ,是 Z 1 2 + ⋯ + Z ν 2 {\displaystyle Z_{1}^{2}+\dotsb +Z_{\color {blue}\nu }^{2}} 的分布,其中 Z 1 , … , Z ν {\displaystyle Z_{1},\dotsc ,Z_{\color {blue}\nu }} 独立同分布,且它们都服从 N ( 0 , 1 ) {\displaystyle {\mathcal {N}}(0,1)} .
的累积分布函数 χ 1 2 , χ 2 2 , χ 3 2 , χ 4 2 , χ 6 2 {\displaystyle {\color {darkorange}\chi _{1}^{2}},{\color {green}\chi _{2}^{2}},{\color {royalblue}\chi _{3}^{2}},{\color {blue}\chi _{4}^{2}},{\color {purple}\chi _{6}^{2}}} 和 χ 9 2 {\displaystyle {\color {red}\chi _{9}^{2}}} .
学生 t {\displaystyle t} -分布 与 卡方 分布和 正态 分布有关。
定义。 (学生 t {\displaystyle t} -分布)
的 pdf t 1 , t 2 , t 5 {\displaystyle {\color {darkorange}t_{1}},{\color {purple}t_{2}},{\color {royalblue}t_{5}}} 和 t ∞ {\displaystyle t_{\infty }} .
具有 ν {\displaystyle {\color {blue}\nu }} 个自由度的 学生 t {\displaystyle t} -分布 ,表示为 t ν {\displaystyle t_{\color {blue}\nu }} ,是 Z Y / ν {\displaystyle {\frac {Z}{\sqrt {Y/{\color {blue}\nu }}}}} 的分布,其中 Y ∼ χ ν 2 {\displaystyle Y\sim \chi _{\color {blue}\nu }^{2}} 和 Z ∼ N ( 0 , 1 ) {\displaystyle Z\sim {\mathcal {N}}(0,1)} .
t 1 , t 2 , t 5 {\displaystyle {\color {darkorange}t_{1}},{\color {purple}t_{2}},{\color {royalblue}t_{5}}} 和 t ∞ {\displaystyle t_{\infty }} 的累积分布函数。
F 分布是广义的学生 t 分布,因为它的参数比学生 t 分布多一个自由度。
定义. ( F {\displaystyle F} -分布) 带有 ν 1 {\displaystyle {\color {red}\nu _{1}}} 和 ν 2 {\displaystyle {\color {blue}\nu _{2}}} 个自由度的 F {\displaystyle F} -分布 ,记为 F ν 1 , ν 2 {\displaystyle F_{{\color {red}\nu _{1}},{\color {blue}\nu _{2}}}}} ,是 X 1 / ν 1 X 2 / ν 2 {\displaystyle {\frac {X_{1}/{\color {red}\nu _{1}}}{X_{2}/{\color {blue}\nu _{2}}}}} 的分布,其中 X 1 ∼ χ ν 1 2 {\displaystyle X_{1}\sim \chi _{\color {red}\nu _{1}}^{2}} 和 X 2 ∼ χ ν 2 2 {\displaystyle X_{2}\sim \chi _{\color {blue}\nu _{2}}^{2}} .
F 1 , 1 , F 2 , 1 , F 5 , 2 , F 10 , 1 {\displaystyle {\color {red}F_{1,1}},F_{2,1},{\color {blue}F_{5,2}},{\color {green}F_{10,1}}} 和 F 100 , 100 {\displaystyle {\color {dimgray}F_{100,100}}} 的概率密度函数。
F 1 , 1 , F 2 , 1 , F 5 , 2 , F 10 , 1 {\displaystyle {\color {red}F_{1,1}},F_{2,1},{\color {blue}F_{5,2}},{\color {green}F_{10,1}}} 和 F 100 , 100 {\displaystyle {\color {dimgray}F_{100,100}}} 的累积分布函数。
如果您想知道 卡方分布 、学生 t {\displaystyle t} -分布 和 F {\displaystyle F} -分布 在统计学中的应用,可以参考 Statistics/Interval Estimation (置信区间构建中的应用)和 Statistics/Hypothesis Testing (假设检验中的应用)。
多项式分布是 推广的 二项式分布,区别在于每次试验的结果不止两种。
假设有 n {\displaystyle n} 个物体要分配到 k {\displaystyle k} 个单元格中,每个物体独立分配到 一个且只有一个 单元格,分配到第 i {\displaystyle i} 个单元格的概率为 p i {\displaystyle p_{i}} ( i = 1 , 2 , … , k {\displaystyle i=1,2,\dotsc ,k} ) [ 12] 。令 X i {\displaystyle X_{i}} 为分配到第 i {\displaystyle i} 个单元格的物体数量。我们想计算概率 P ( X = def ( X 1 , … , X k ) T = x = def ( x 1 , … , x k ) T ) {\displaystyle \mathbb {P} {\big (}\mathbf {X} {\overset {\text{ def }}{=}}(X_{1},\dotsc ,X_{k})^{T}=\mathbf {x} {\overset {\text{ def }}{=}}(x_{1},\dotsc ,x_{k})^{T}{\big )}} ,即第 i {\displaystyle i} 个单元格有 x i {\displaystyle x_{i}} 个物体的概率。
我们可以将每次分配视为一个独立的试验,有 k {\displaystyle k} 种结果(因为它可以分配到 k {\displaystyle k} 个单元格中的一个且只有一个)。我们可以认识到,分配 n {\displaystyle n} 个物体是将 n {\displaystyle n} 个物体划分成 k {\displaystyle k} 组。因此,有 ( n x 1 , … , x k ) {\displaystyle {\binom {n}{x_{1},\dotsc ,x_{k}}}} 种分配方式。
所以, P ( X = x ) = ( n x 1 , … , x k ) p 1 x 1 ⋯ p k x k . {\displaystyle \mathbb {P} (\mathbf {X} =\mathbf {x} )={\binom {n}{x_{1},\dotsc ,x_{k}}}p_{1}^{x_{1}}\dotsb p_{k}^{x_{k}}.} 尤其,分配给 x i {\displaystyle x_{i}} 个对象的概率 i {\displaystyle i} 个单元格是 p i x i {\displaystyle p_{i}^{x_{i}}} ,这是由于独立性,因此分配给 n {\displaystyle n} 个对象到 k {\displaystyle k} 个单元格的特定情况的概率是 p 1 x 1 ⋯ p k x k {\displaystyle p_{1}^{x_{1}}\dotsb p_{k}^{x_{k}}} ,这是由于独立性。
定义。 (多项式分布)随机向量 X = ( X 1 , … , X k ) T {\displaystyle \mathbf {X} =(X_{1},\dotsc ,X_{k})^{T}} 服从多项式分布 ,其中有 n {\displaystyle n} 次试验和概率向量 p = ( p 1 , … , p k ) T {\displaystyle \mathbf {p} =(p_{1},\dotsc ,p_{k})^{T}} ,记为 X ∼ Multinom ( n , p ) {\displaystyle \mathbf {X} \sim \operatorname {Multinom} (n,\mathbf {p} )} ,如果它的联合概率质量函数为 f X ( x 1 , … , x k ; n , p ) = ( n x 1 , … , x k ) p 1 x 1 ⋯ p k x k , x 1 , … , x k ≥ 0 , and x 1 + ⋯ + x k = n . {\displaystyle f_{\mathbf {X} }(x_{1},\dotsc ,x_{k};n,\mathbf {p} )={\binom {n}{x_{1},\dotsc ,x_{k}}}p_{1}^{x_{1}}\dotsb p_{k}^{x_{k}},\quad x_{1},\dotsc ,x_{k}\geq 0,{\text{ and }}x_{1}+\dotsb +x_{k}=n.}
备注。
Multinom ( n , p ) ≡ Binom ( n , p ) {\displaystyle \operatorname {Multinom} (n,\mathbf {p} )\equiv \operatorname {Binom} (n,p)} 如果 p = ( p , 1 − p ) T {\displaystyle \mathbf {p} =(p,1-p)^{T}} .
在这种情况下,如果 ( X 1 , X 2 ) T ∼ Multinom ( n , p ) {\displaystyle (X_{1},X_{2})^{T}\sim \operatorname {Multinom} (n,\mathbf {p} )} , X 1 {\displaystyle X_{1}} 是二项分布的成功次数(而 X 2 ( = n − X 1 ) {\displaystyle X_{2}(=n-X_{1})} 是失败次数)。
此外, X i ∼ Binom ( n , p i ) {\displaystyle X_{i}\sim \operatorname {Binom} (n,p_{i})} 。通过将对象分配到 i {\displaystyle i} 个单元格中,并将每个单一对象的分配视为“成功”,可以看出这一点[ 13] 。然后,成功概率是 p i {\displaystyle p_{i}} .
多元 正态分布正如其名称所暗示的那样,是正态分布(单变量)的多变量(也是广义)版本。
Definition. (Multivariate normal distribution) A random vector X = ( X 1 , … , X k ) T {\displaystyle \mathbf {X} =(X_{1},\dotsc ,X_{k})^{T}} follows the k {\displaystyle k} -dimensional normal distribution with mean vector μ {\displaystyle {\boldsymbol {\mu }}} and covariance matrix Σ {\displaystyle {\boldsymbol {\Sigma }}} , denoted by X ∼ N k ( μ , Σ ) {\displaystyle \mathbf {X} \sim {\mathcal {N}}_{k}({\boldsymbol {\mu }},{\boldsymbol {\Sigma }})} [ 14] if its joint pdf is f X ( x 1 , … , x k ; μ , Σ ) = exp ( − ( x − μ ) T Σ − 1 ( x − μ ) / 2 ) ( 2 π ) k det Σ , x = ( x 1 , … , x k ) T ∈ R k {\displaystyle f_{\mathbf {X} }(x_{1},\dotsc ,x_{k};{\boldsymbol {\mu }},{\boldsymbol {\Sigma }})={\frac {\exp \left(-(\mathbf {x} -{\boldsymbol {\mu }})^{T}{\boldsymbol {\Sigma }}^{-1}(\mathbf {x} -{\boldsymbol {\mu }})/2\right)}{\sqrt {(2\pi )^{k}\det {\boldsymbol {\Sigma }}}}},\quad \mathbf {x} =(x_{1},\dotsc ,x_{k})^{T}\in \mathbb {R} ^{k}} in which μ = ( μ 1 , … , μ k ) T = ( E [ X 1 ] , … , E [ X k ] ) T {\displaystyle {\boldsymbol {\mu }}=(\mu _{1},\dotsc ,\mu _{k})^{T}=(\mathbb {E} [X_{1}],\dotsc ,\mathbb {E} [X_{k}])^{T}} is the mean vector , and Σ = ( Cov ( X 1 , X 1 ) ⋯ Cov ( X 1 , X k ) ⋮ ⋱ ⋮ Cov ( X k , X 1 ) ⋯ Cov ( X k , X k ) ) = ( σ 1 2 ⋯ Cov ( X 1 , X k ) ⋮ ⋱ ⋮ Cov ( X k , X 1 ) ⋯ σ k 2 ) {\displaystyle {\boldsymbol {\Sigma }}={\begin{pmatrix}\operatorname {Cov} (X_{1},X_{1})&\cdots &\operatorname {Cov} (X_{1},X_{k})\\\vdots &\ddots &\vdots \\\operatorname {Cov} (X_{k},X_{1})&\cdots &\operatorname {Cov} (X_{k},X_{k})\end{pmatrix}}={\begin{pmatrix}\sigma _{1}^{2}&\cdots &\operatorname {Cov} (X_{1},X_{k})\\\vdots &\ddots &\vdots \\\operatorname {Cov} (X_{k},X_{1})&\cdots &\sigma _{k}^{2}\end{pmatrix}}} is the covariance matrix (with size k × k {\displaystyle k\times k} ).
备注。
对于 k = 2 {\displaystyle k=2} 的情况,通常使用更常用的分布,称为 双变量正态 分布。
另一种等效的定义是 X = ( X 1 , … , X k ) T ∼ N k ( μ , Σ ) {\displaystyle \mathbf {X} =(X_{1},\dotsc ,X_{k})^{T}\sim {\mathcal {N}}_{k}({\boldsymbol {\mu }},{\boldsymbol {\Sigma }})} 如果
X 1 = a 11 Z 1 + ⋯ + a 1 n Z n + μ 1 ; ⋮ X k = a k 1 Z 1 + ⋯ + a k n Z n + μ k , {\displaystyle {\begin{aligned}X_{1}&=a_{11}Z_{1}+\dotsb +a_{1n}Z_{n}+\mu _{1};\\\vdots \\X_{k}&=a_{k1}Z_{1}+\dotsb +a_{kn}Z_{n}+\mu _{k},\\\end{aligned}}}
对于某些常数 a 11 , … , a 1 n , … , a k 1 , … , a k n , μ 1 , … , μ k {\displaystyle a_{11},\dotsc ,a_{1n},\dotsc ,a_{k1},\dotsc ,a_{kn},\mu _{1},\dotsc ,\mu _{k}} ,而 Z 1 , … , Z n {\displaystyle Z_{1},\dotsc ,Z_{n}} 是 n {\displaystyle n} 个独立同分布的标准正态随机变量。
利用上述结果,边际 分布, X i {\displaystyle X_{i}} 遵循 N ( μ i , σ i 2 ) , i = 1 , 2 , … , or k {\displaystyle {\mathcal {N}}(\mu _{i},\sigma _{i}^{2}),\quad i=1,2,\dotsc ,{\text{ or }}k} ,正如人们所期望的那样。
根据关于独立正态随机变量之和和正态随机变量线性变换分布的命题(参见概率/随机变量变换 章),均值为 0 + ⋯ + 0 + μ i = μ i {\displaystyle 0+\dotsb +0+\mu _{i}=\mu _{i}} ,方差为 a i 1 2 + ⋯ + a i n 2 {\displaystyle a_{i1}^{2}+\dotsb +a_{in}^{2}} (根据定义,它等于 σ i 2 {\displaystyle \sigma _{i}^{2}} )。
命题。 (双变量正态分布的联合概率密度函数) N 2 ( μ , Σ ) {\displaystyle {\mathcal {N}}_{2}({\boldsymbol {\mu }},{\boldsymbol {\Sigma }})} 的联合概率密度函数为 f ( x , y ) = 1 2 π σ X σ Y 1 − ρ 2 exp ( − 1 2 ( 1 − ρ 2 ) ( ( x − μ X σ X ) 2 − 2 ρ ( x − μ X σ X ) ( y − μ Y σ Y ) + ( y − μ Y σ Y ) 2 ) ) , ( x , y ) T ∈ R 2 {\displaystyle f(x,y)={\frac {1}{2\pi \sigma _{X}\sigma _{Y}{\sqrt {1-\rho ^{2}}}}}\exp \left(-{\frac {1}{2(1-\rho ^{2})}}\left(\left({\frac {x-\mu _{X}}{\sigma _{X}}}\right)^{2}-2\rho \left({\frac {x-\mu _{X}}{\sigma _{X}}}\right)\left({\frac {y-\mu _{Y}}{\sigma _{Y}}}\right)+\left({\frac {y-\mu _{Y}}{\sigma _{Y}}}\right)^{2}\right)\right),\quad (x,y)^{T}\in \mathbb {R} ^{2}}
其中
ρ = ρ ( X , Y ) {\displaystyle \rho =\rho (X,Y)} 且
σ X , σ Y {\displaystyle \sigma _{X},\sigma _{Y}} 为正数。
双变量正态分布示例的图形
证明。 对于双变量正态分布,
均值向量 为 μ = ( μ X , μ Y ) {\displaystyle {\boldsymbol {\mu }}=(\mu _{X},\mu _{Y})} ;
该 协方差矩阵 为 Σ = ( Cov ( X , X ) Cov ( X , Y ) Cov ( Y , X ) Cov ( Y , Y ) ) = ( Var ( X ) Cov ( X , Y ) Cov ( X , Y ) Var ( Y ) ) = ( σ X 2 ρ σ X σ Y ρ σ X σ Y σ Y 2 ) . {\displaystyle {\boldsymbol {\Sigma }}={\begin{pmatrix}\operatorname {Cov} (X,X)&\operatorname {Cov} (X,Y)\\\operatorname {Cov} (Y,X)&\operatorname {Cov} (Y,Y)\end{pmatrix}}={\begin{pmatrix}\operatorname {Var} (X)&\operatorname {Cov} (X,Y)\\\operatorname {Cov} (X,Y)&\operatorname {Var} (Y)\\\end{pmatrix}}={\begin{pmatrix}\sigma _{X}^{2}&\rho \sigma _{X}\sigma _{Y}\\\rho \sigma _{X}\sigma _{Y}&\sigma _{Y}^{2}\\\end{pmatrix}}.}
因此,
( x − μ ) T Σ − 1 ( x − μ ) = 1 det Σ ( ( x − μ X , y − μ Y ) T ) T ( σ Y 2 − ρ σ X σ Y − ρ σ X σ Y σ X 2 ) ( x − μ X , y − μ Y ) T ) = 1 det Σ ( x − μ X y − μ Y ) ( σ Y 2 − ρ σ X σ Y − ρ σ X σ Y σ X 2 ) ( x − μ X y − μ Y ) = 1 det Σ ( ( x − μ X ) σ Y 2 − ( y − μ Y ) ρ σ X σ Y − ( x − μ X ) ρ σ X σ Y + ( y − μ Y ) σ X 2 ) ( x − μ X y − μ Y ) = 1 det Σ ⏟ σ X 2 σ Y 2 − ( ρ σ X σ Y ) 2 ( ( x − μ X ) 2 σ Y 2 − ( x − μ X ) ( y − μ Y ) ρ σ X σ Y − ( x − μ X ) ( y − μ Y ) ρ σ X σ Y ⏟ = − 2 ρ ( x − μ X ) ( y − μ Y ) σ X σ Y + ( y − μ Y ) 2 σ X 2 ) = ( x − μ X ) 2 σ Y 2 − 2 ρ ( x − μ X ) ( y − μ Y ) σ X σ Y + ( y − μ Y ) 2 σ X 2 σ X 2 σ Y 2 ( 1 − ρ ) 2 = 1 1 − ρ 2 ( ( x − μ X σ X ) 2 − 2 ρ ( ( x − μ X ) ( y − μ Y ) σ X σ Y ) + ( y − μ Y σ Y ) 2 ) . {\displaystyle {\begin{aligned}(\mathbf {x} -{\boldsymbol {\mu }})^{T}{\boldsymbol {\Sigma }}^{-1}(\mathbf {x} -{\boldsymbol {\mu }})&={\frac {1}{\det {\boldsymbol {\Sigma }}}}\left((x-\mu _{X},y-\mu _{Y})^{T}\right)^{T}{\begin{pmatrix}\sigma _{Y}^{2}&-\rho \sigma _{X}\sigma _{Y}\\-\rho \sigma _{X}\sigma _{Y}&\sigma _{X}^{2}\\\end{pmatrix}}(x-\mu _{X},y-\mu _{Y})^{T})\\&={\frac {1}{\det {\boldsymbol {\Sigma }}}}{\begin{pmatrix}{\color {blue}x-\mu _{X}}&{\color {red}y-\mu _{Y}}\end{pmatrix}}{\begin{pmatrix}{\color {darkgreen}\sigma _{Y}^{2}}&{\color {darkorange}-\rho \sigma _{X}\sigma _{Y}}\\{\color {purple}-\rho \sigma _{X}\sigma _{Y}}&{\color {maroon}\sigma _{X}^{2}}\\\end{pmatrix}}{\begin{pmatrix}x-\mu _{X}\\y-\mu _{Y}\end{pmatrix}}\\&={\frac {1}{\det {\boldsymbol {\Sigma }}}}{\begin{pmatrix}{\color {blue}(x-\mu _{X})}{\color {darkgreen}\sigma _{Y}^{2}}{\color {purple}-}{\color {red}(y-\mu _{Y})}{\color {purple}\rho \sigma _{X}\sigma _{Y}}&{\color {darkorange}-}{\color {blue}(x-\mu _{X})}{\color {darkorange}\rho \sigma _{X}\sigma _{Y}}+{\color {red}(y-\mu _{Y})}{\color {maroon}\sigma _{X}^{2}}\end{pmatrix}}{\begin{pmatrix}{\color {deeppink}x-\mu _{X}}\\{\color {deeppink}y-\mu _{Y}}\end{pmatrix}}\\&={\frac {1}{\underbrace {\det {\boldsymbol {\Sigma }}} _{\sigma _{X}^{2}\sigma _{Y}^{2}-(\rho \sigma _{X}\sigma _{Y})^{2}}}}{\big (}(x-\mu _{X})^{\color {deeppink}2}\sigma _{Y}^{2}\underbrace {-{\color {deeppink}(x-\mu _{X})}(y-\mu _{Y})\rho \sigma _{X}\sigma _{Y}-(x-\mu _{X}){\color {deeppink}(y-\mu _{Y})}\rho \sigma _{X}\sigma _{Y}} _{=-2\rho (x-\mu _{X})(y-\mu _{Y})\sigma _{X}\sigma _{Y}}+(y-\mu _{Y})^{\color {deeppink}2}\sigma _{X}^{2}{\big )}\\&={\frac {(x-\mu _{X})^{2}\sigma _{Y}^{2}-2\rho (x-\mu _{X})(y-\mu _{Y})\sigma _{X}\sigma _{Y}+(y-\mu _{Y})^{2}\sigma _{X}^{2}}{\sigma _{X}^{2}\sigma _{Y}^{2}(1-\rho )^{2}}}\\&={\frac {1}{1-\rho ^{2}}}\left(\left({\frac {x-\mu _{X}}{\sigma _{X}}}\right)^{2}-2\rho \left({\frac {(x-\mu _{X})(y-\mu _{Y})}{\sigma _{X}\sigma _{Y}}}\right)+\left({\frac {y-\mu _{Y}}{\sigma _{Y}}}\right)^{2}\right).\end{aligned}}}
f ( x , y ) = 1 ( 2 π ) 2 det Σ exp ( − 1 2 ⋅ 1 1 − ρ 2 ( ( x − μ X σ X ) 2 − 2 ρ ( ( x − μ X ) ( y − μ Y ) σ X σ Y ) + ( y − μ Y σ Y ) 2 ) ) = 1 2 π σ X 2 σ Y 2 ( 1 − ρ 2 ) exp ( − 1 2 ( 1 − ρ 2 ) ( ( x − μ X σ X ) 2 − 2 ρ ( ( x − μ X ) ( y − μ Y ) σ X σ Y ) + ( y − μ Y σ Y ) 2 ) ) = 1 2 π σ X σ Y 1 − ρ 2 exp ( − 1 2 ( 1 − ρ 2 ) ( ( x − μ X σ X ) 2 − 2 ρ ( x − μ X σ X ) ( y − μ Y σ Y ) + ( y − μ Y σ Y ) 2 ) ) . {\displaystyle {\begin{aligned}f(x,y)&={\frac {1}{\sqrt {(2\pi )^{2}\det {\boldsymbol {\Sigma }}}}}\exp \left(-{\frac {1}{2}}\cdot {\frac {1}{1-\rho ^{2}}}\left(\left({\frac {x-\mu _{X}}{\sigma _{X}}}\right)^{2}-2\rho \left({\frac {(x-\mu _{X})(y-\mu _{Y})}{\sigma _{X}\sigma _{Y}}}\right)+\left({\frac {y-\mu _{Y}}{\sigma _{Y}}}\right)^{2}\right)\right)\\&={\frac {1}{2\pi {\sqrt {\sigma _{X}^{2}\sigma _{Y}^{2}(1-\rho ^{2})}}}}\exp \left({\frac {-1}{2(1-\rho ^{2})}}\left(\left({\frac {x-\mu _{X}}{\sigma _{X}}}\right)^{2}-2\rho \left({\frac {(x-\mu _{X})(y-\mu _{Y})}{\sigma _{X}\sigma _{Y}}}\right)+\left({\frac {y-\mu _{Y}}{\sigma _{Y}}}\right)^{2}\right)\right)\\&={\frac {1}{2\pi \sigma _{X}\sigma _{Y}{\sqrt {1-\rho ^{2}}}}}\exp \left({\frac {-1}{2(1-\rho ^{2})}}\left(\left({\frac {x-\mu _{X}}{\sigma _{X}}}\right)^{2}-2\rho \left({\frac {x-\mu _{X}}{\sigma _{X}}}\right)\left({\frac {y-\mu _{Y}}{\sigma _{Y}}}\right)+\left({\frac {y-\mu _{Y}}{\sigma _{Y}}}\right)^{2}\right)\right).\\\end{aligned}}}
◻ {\displaystyle \Box }
↑ 或者,我们可以将事件定义为 { i th Bernoulli trial is a failure } . {\displaystyle \{i{\text{th Bernoulli trial is a failure}}\}.}
↑ 'indpt.' 代表独立。
↑ 这是因为从 n {\displaystyle {\color {blue}n}} 次试验中(然后剩下的位置用于 '失败' )对(可区分且有序的) r {\displaystyle {\color {darkgreen}r}} 次试验进行无放回的无序选择,以获得 '成功' 。
↑ 罕见事件的发生被视为 '成功',罕见事件的未发生被视为 '失败'。
↑ 与二项分布的结果不同,每个 x {\displaystyle {\color {red}x}} 只有一个可能的序列。
↑ 从 x + k − 1 {\displaystyle {\color {red}x}+{\color {darkgreen}k}-1} 次试验中对 x {\displaystyle {\color {red}x}} 次试验进行无放回的无序选择,以获得 '失败' (或对 k − 1 {\displaystyle {\color {darkgreen}k}-1} 次试验进行无放回的无序选择,以获得 '成功' )。
↑ 对 k {\displaystyle k} 的限制是为了定义二项式系数,即表达式 '有意义'。实际上,我们很少直接使用这个条件。相反,我们通常直接确定 x {\displaystyle x} 的特定值是否 '有意义'。
↑ 这超出了本书的范围。
↑ 概率 '均匀分布在区间上'。
↑ 与其他 轻尾 分布(例如正态分布)相比,服从柯西 分布的随机变量有较高的概率取 极值 。在图形上,pdf 的 '尾部'(即左端和右端)。
↑ 对于 a < 0 {\displaystyle a<0} 的情况类似(不等号方向相反,最终我们将有两个负号相互抵消)。当 a = 0 {\displaystyle a=0} 时,随机变量变成一个非随机常数,所以我们对这种情况不感兴趣。
↑ 然后, p 1 + p 2 + ⋯ + p k = 1 {\displaystyle p_{1}+p_{2}+\dotsb +p_{k}=1} .
↑ 如果对象被分配到除 i {\displaystyle i} 个单元以外的单元,那么它就是 '失败'。
↑ N {\displaystyle {\mathcal {N}}} 的下标 k {\displaystyle k} 是为了强调该分布是 k {\displaystyle k} 维的,并且是可选的。