假设发生了一场地震。令 X {\displaystyle X} 为伤亡人数, Y {\displaystyle Y} 为地震的里氏震级 。
(a) 在没有给定任何信息的情况下, X {\displaystyle X} 的分布是什么?
(b) 假设 Y = 1 {\displaystyle Y=1} , X {\displaystyle X} 的分布是什么?
(c) 假设 Y = 9 {\displaystyle Y=9} , X {\displaystyle X} 的分布是什么?
备注。
Y = 1 {\displaystyle Y=1} 表示地震微弱, Y = 9 {\displaystyle Y=9} 表示地震强烈。
你对 (a)、(b)、(c) 的答案是否不同?
在 (b) 和 (c) 中,我们分别有 条件 分布 X {\displaystyle X} 在给定 Y = 1 {\displaystyle Y=1} 时的分布,以及 条件 分布 X {\displaystyle X} 在给定 Y = 9 {\displaystyle Y=9} 时的分布。
一般情况下,我们有给定 Y {\displaystyle Y} 的 条件分布 X {\displaystyle X} (在 观察 Y {\displaystyle Y} 的值 之前 ),或者给定 Y = y {\displaystyle Y=y} 的 X {\displaystyle X} (在 观察 Y {\displaystyle Y} 的值 之后 )。
回顾条件概率 的定义: P ( A | B ) = P ( A ∩ B ) P ( B ) , {\displaystyle \mathbb {P} (A|B)={\frac {\mathbb {P} (A\cap B)}{\mathbb {P} (B)}},} 其中 A , B {\displaystyle A,B} 是事件,且 P ( B ) > 0 {\displaystyle \mathbb {P} (B)>0} 。将此定义应用于离散随机变量 X , Y {\displaystyle X,Y} ,我们有 P ( X = x | Y = y ) = P ( X = x ∩ Y = y ) P ( Y = y ) = f ( x , y ) f Y ( y ) , {\displaystyle \mathbb {P} (X=x|Y=y)={\frac {\mathbb {P} (X=x\cap Y=y)}{\mathbb {P} (Y=y)}}={\frac {f(x,y)}{f_{Y}(y)}},} 其中 f ( x , y ) {\displaystyle f(x,y)} 是 X {\displaystyle X} 和 Y {\displaystyle Y} 的联合 pmf,而 f Y ( y ) {\displaystyle f_{Y}(y)} 是 Y {\displaystyle Y} 的边际 pmf。很自然地,我们将这种条件概率称为条件 pmf ,对吧?我们将这种条件概率记为 f X | Y ( x | y ) {\displaystyle f_{X|Y}(x|y)} 。那么,这基本上就是条件 pmf 的定义: X {\displaystyle X} 在给定 Y = y {\displaystyle Y=y} 条件下的条件 pmf 是条件概率 P ( X = x | Y = y ) {\displaystyle \mathbb {P} (X=x|Y=y)} 。自然地,我们希望条件 pdf 的定义也类似。事实确实如此。
为了更直观地理解连续情况下的定义,请考虑以下图表。
Top view:
|
|
*---------------*
| |
| |
fixed y *===============* <--- corresponding interval
| |
| |
*---------------*
|
*---------------- x
Side view:
*
/ \
*\ * /
/|#\ \
| / |##\ / *---------*
| * |###\ /\
| |\ |##/#\----------/--\
| | \|#/###*--------* /
| | \/############/#\ /
| |y *\===========/===*
| | / *---------* /
| |/ \ /
| *----------------*
|/
*------------------------- x
Front view:
|
|
|
*\
|#\
|##\
|###\
|####\ <------ Area: f_Y(y)
|#####*--------*
|###############\
*================*-------------- x
*---*
|###| : corresponding cross section from joint pdf
*---*
我们可以看到,当我们对 Y = y {\displaystyle Y=y} 进行条件化时,我们从联合概率密度函数下的区域中“切”出一片,这片“切片”的面积就是 单变量 联合概率密度函数 f ( x , y ) {\displaystyle f(x,y)} 在固定 y {\displaystyle y} 且变量 x {\displaystyle x} 时,与 x {\displaystyle x} 轴之间的面积。由于面积由 ∫ − ∞ ∞ f ( x , y ) d x = f Y ( y ) {\displaystyle \int _{-\infty }^{\infty }f({\color {darkgreen}x},y)\,d{\color {darkgreen}x}=f_{Y}(y)} 给出,而根据概率公理,面积应该等于 1。因此,我们通过将单变量联合概率密度函数 f ( x , y ) {\displaystyle f(x,y)} 除以 f Y ( y ) {\displaystyle f_{Y}(y)} 来缩小“切片”面积的 f Y ( y ) {\displaystyle f_{Y}(y)} 倍。之后,缩小“切片”顶部的那条曲线就是条件概率密度函数 f ( x , y ) f Y ( y ) {\displaystyle {\frac {f(x,y)}{f_{Y}(y)}}} 的图像。
现在,我们已经讨论了两个随机变量都是离散或连续的情况。那么其中一个变量是离散,另一个是连续的情况呢?在这种情况下,这两个随机变量没有“联合概率函数”,因为一个是离散的,另一个是连续的!但是,我们仍然可以通过其他方式定义条件概率函数。为了引出下面的定义,设 F X | Y ( x | y ) {\displaystyle F_{X|Y}(x|y)} 是条件概率 P ( X ≤ x | Y = y ) {\displaystyle \mathbb {P} (X\leq x|Y=y)} 。然后,对 F X | Y ( x | y ) {\displaystyle F_{X|Y}(x|y)} 关于 x {\displaystyle x} 求导应该得到条件pdf f X | Y ( x | y ) {\displaystyle f_{X|Y}(x|y)} 。所以,我们有 f X | Y ( x | y ) = d d x F X | Y ( x | y ) = lim h → 0 P ( X ≤ x + h | Y = y ) − P ( X ≤ x | Y = y ) h = lim h → 0 P ( x < X ≤ x + h | Y = y ) h = lim h → 0 P ( Y = y | x < X ≤ x + h ) P ( x < X ≤ x + h ) h P ( Y = y ) = lim h → 0 P ( Y = y | x < X ≤ x + h ) P ( x < X ≤ x + h ) h P ( Y = y ) = lim h → 0 P ( Y = y | x ≤ X ≤ x + h ) P ( Y = y ) lim h → 0 P ( x < X ≤ x + h ) h = P ( Y = y | X = x ) d d x F X ( x ) P ( Y = y ) = P ( Y = y | X = x ) f X ( x ) P ( Y = y ) . {\displaystyle {\begin{aligned}f_{X|Y}(x|y)={\frac {d}{dx}}F_{X|Y}(x|y)&=\lim _{h\to 0}{\frac {\mathbb {P} (X\leq x+h|Y=y)-\mathbb {P} (X\leq x|Y=y)}{h}}\\&=\lim _{h\to 0}{\frac {\mathbb {P} (x<X\leq x+h|Y=y)}{h}}\\&=\lim _{h\to 0}{\frac {\mathbb {P} (Y=y|x<X\leq x+h)\mathbb {P} (x<X\leq x+h)}{h\mathbb {P} (Y=y)}}\\&=\lim _{h\to 0}{\frac {\mathbb {P} (Y=y|x<X\leq x+h)\mathbb {P} (x<X\leq x+h)}{h\mathbb {P} (Y=y)}}\\&=\lim _{h\to 0}{\frac {\mathbb {P} (Y=y|x\leq X\leq x+h)}{\mathbb {P} (Y=y)}}\lim _{h\to 0}{\frac {\mathbb {P} (x<X\leq x+h)}{h}}\\&={\frac {\mathbb {P} (Y=y|X=x){\frac {d}{dx}}F_{X}(x)}{\mathbb {P} (Y=y)}}\\&={\frac {\mathbb {P} (Y=y|X=x)f_{X}(x)}{\mathbb {P} (Y=y)}}.\\\end{aligned}}} 因此,自然地给出以下定义。
现在,我们来讨论一下当 X {\displaystyle X} 是离散的而 Y {\displaystyle Y} 是连续的情况。在这种情况下,我们使用上述定义作为定义的动机。然而,我们应该交换 X {\displaystyle X} 和 Y {\displaystyle Y} 的位置,以确保假设仍然成立。然后,我们得到 f Y | X ( y | x ) = P ( X = x | Y = y ) f Y ( y ) P ( X = x ) . {\displaystyle f_{Y|X}(y|x)={\frac {\mathbb {P} (X=x|Y=y)f_{Y}(y)}{\mathbb {P} (X=x)}}.} 在这种情况下, X {\displaystyle X} 是离散的,因此很自然地将给定 Y = y {\displaystyle Y=y} 的 X {\displaystyle X} 的条件概率质量函数定义为 P ( X = x | Y = y ) {\displaystyle \mathbb {P} (X=x|Y=y)} 在表达式中。现在,在重新排列项之后,我们得到 P ( X = x | Y = y ) = f Y | X ( y | x ) P ( X = x ) f Y ( y ) . {\displaystyle \mathbb {P} (X=x|Y=y)={\frac {f_{Y|X}(y|x)\mathbb {P} (X=x)}{f_{Y}(y)}}.} 因此,我们有以下定义。
基于条件概率函数的定义,我们可以自然地定义 条件 累积分布函数如下。
备注。
需要注意的是,当 Y {\displaystyle Y} 是连续的,事件 { Y = y } {\displaystyle \{Y=y\}} 的概率为零。因此,根据条件概率的定义,在这种情况下,条件累积分布函数应该是 未定义 的。然而,在这种情况下,我们仍然将条件概率定义为一个有意义且已定义的表达式。
定义的图形说明(连续随机变量)
Top view:
|
|
*---------------*
| |
| |
fixed y *=========@=====* <--- corresponding interval
| x |
| |
*---------------*
|
*----------------
Side view:
*
/ \
*\ * /
/|#\ \
| / |##\ / *---------*
| * |###\ /\
| |\ |##/#\----------/--\
| | \|#/###*--------* /
| | \/######### / \ /
| |y *\========@==/===*
| | / *-------x-* /
| |/ \ /
| *----------------*
|/
*------------------------- x
Front view:
|
|
|
*\
|#\
|##\
|###\
|####\ <------------- Area: f_Y(y)
|#####*--------*
|########### \
*==========@=====*--------------
x
*---*
|###| : the desired region from the cross section from joint pdf, whose area is the probability from the cdf
*---*
如果 Y = 1 { A } {\displaystyle Y=\mathbf {1} \{A\}} 对于某个事件 A {\displaystyle A} ,为了简化,我们有一些特殊的记号
给定 Y = y {\displaystyle Y=y} 的 X {\displaystyle X} 的条件概率函数变为
f X | Y ( x | y ) = { f ( x | A ) , y = 1 ; f ( x | A c ) , y = 0. {\displaystyle f_{X|Y}({\color {darkgreen}x}|y)={\begin{cases}f({\color {darkgreen}x}|A),&y=1;\\f({\color {darkgreen}x}|A^{c}),&y=0.\end{cases}}}
给定 Y = y {\displaystyle Y=y} 的 X {\displaystyle X} 的条件累积分布函数变为
F X | Y ( x | y ) = P ( X ≤ x | Y = y ) = { F ( x | A ) , y = 1 ; F ( x | A c ) , y = 0. {\displaystyle F_{X|Y}({\color {darkgreen}x}|y)=\mathbb {P} (X\leq {\color {darkgreen}x}|Y=y)={\begin{cases}F({\color {darkgreen}x}|A),&y=1;\\F({\color {darkgreen}x}|A^{c}),&y=0.\end{cases}}}
证明。 回想一下两个随机变量之间独立性的定义
X , Y {\displaystyle X,Y} 是独立的,如果
f ( x , y ) = f X ( x ) f Y ( y ) {\displaystyle f(x,y)=f_{X}(x)f_{Y}(y)}
对于每个 x , y {\displaystyle x,y} .
由于 f X | Y ( x | y ) = f ( x , y ) ⏞ f X ( x ) f Y ( y ) f Y ( y ) = f X ( x ) and f Y | X ( y | x ) = f ( y , x ) ⏞ f Y ( y ) f X ( x ) f X ( x ) = f Y ( y ) {\displaystyle f_{X|Y}({\color {darkgreen}x}|y)={\frac {\overbrace {f({\color {darkgreen}x},y)} ^{f_{X}({\color {darkgreen}x})f_{Y}(y)}}{f_{Y}(y)}}=f_{X}(x){\text{ and }}f_{Y|X}({\color {darkgreen}y}|x)={\frac {\overbrace {f({\color {darkgreen}y},x)} ^{f_{Y}({\color {darkgreen}y})f_{X}(x)}}{f_{X}(x)}}=f_{Y}(y)} 对于每个 x , y {\displaystyle x,y} ,我们得到了所需的结果。
◻ {\displaystyle \Box }
备注。
这是意料之中的,因为对独立事件的条件化不应该影响另一个独立事件的发生。
我们可以将条件概率函数和cdf的定义扩展到随机变量组,对于联合cdf和联合概率函数,如下所示
定义。 (条件联合概率函数)令 X = ( X 1 , … , X r ) T {\displaystyle \mathbf {X} =(X_{1},\dotsc ,X_{r})^{T}} 和 Y = ( Y 1 , … , Y s ) T {\displaystyle \mathbf {Y} =(Y_{1},\dotsc ,Y_{s})^{T}} 为两个随机向量。给定 Y = ( y 1 , … , y s ) {\displaystyle \mathbf {Y} =(y_{1},\dotsc ,y_{s})} 时, X = ( x 1 , … , x r ) {\displaystyle \mathbf {X} =(x_{1},\dotsc ,x_{r})} 的 条件 联合概率函数为 f X | Y ( x 1 , … , x r | y 1 , … , y s ) = def P ( X 1 = x 1 ∩ ⋯ ∩ X r = x r | Y 1 = y 1 ∩ ⋯ ∩ Y s = y s ) = f ( x 1 , … , x r , y 1 , … , y s ) f Y ( y 1 , … , y s ) {\displaystyle f_{\mathbf {X} |\mathbf {Y} }({\color {darkgreen}x_{1},\dotsc ,x_{r}}|y_{1},\dotsc ,y_{s}){\overset {\text{ def }}{=}}\mathbb {P} (X_{1}={\color {darkgreen}x_{1}}\cap \dotsb \cap X_{r}={\color {darkgreen}x_{r}}|Y_{1}=y_{1}\cap \dotsb \cap Y_{s}=y_{s})={\frac {f({\color {darkgreen}x_{1},\dotsc ,x_{r}},y_{1},\dotsc ,y_{s})}{f_{\mathbf {Y} }(y_{1},\dotsc ,y_{s})}}}
然后,我们也有类似的命题来判断两个随机向量的独立性。
命题。 (确定两个随机向量的独立性)随机向量 X = ( X 1 , … , X r ) T , Y = ( Y 1 , … , Y s ) T {\displaystyle \mathbf {X} =(X_{1},\dotsc ,X_{r})^{T},\mathbf {Y} =(Y_{1},\dotsc ,Y_{s})^{T}} 当且仅当 f X | Y ( x 1 , … , x r | y 1 , … , y s ) = f X ( x 1 , … , x r ) or f Y | X ( y 1 , … , y s | x 1 , … , x r ) = f Y ( y 1 , … , y s ) {\displaystyle f_{\mathbf {X} |\mathbf {Y} }(x_{1},\dotsc ,x_{r}|y_{1},\dotsc ,y_{s})=f_{\mathbf {X} }(x_{1},\dotsc ,x_{r}){\text{ or }}f_{\mathbf {Y} |\mathbf {X} }(y_{1},\dotsc ,y_{s}|x_{1},\dotsc ,x_{r})=f_{\mathbf {Y} }(y_{1},\dotsc ,y_{s})} 对于每个 x 1 , … , x r , y 1 , … , y s {\displaystyle x_{1},\dotsc ,x_{r},y_{1},\dotsc ,y_{s}} 。
证明。 两个随机向量之间独立性的定义是
X = ( X 1 , … , X r ) T , Y = ( Y 1 , … , Y s ) T {\displaystyle \mathbf {X} =(X_{1},\dotsc ,X_{r})^{T},\mathbf {Y} =(Y_{1},\dotsc ,Y_{s})^{T}} 是独立的,如果
f ( x 1 , … , x r , y 1 , … , y s ) = f X ( x 1 , … , x r ) f Y ( y 1 , … , y s ) {\displaystyle f(x_{1},\dotsc ,x_{r},y_{1},\dotsc ,y_{s})=f_{\mathbf {X} }(x_{1},\dotsc ,x_{r})f_{\mathbf {Y} }(y_{1},\dotsc ,y_{s})}
对于每个 x 1 , … , x r , y 1 , … , y s {\displaystyle x_{1},\dotsc ,x_{r},y_{1},\dotsc ,y_{s}} 。
由于对于每个 x 1 , … , x r , y 1 , … , y s {\displaystyle x_{1},\dotsc ,x_{r},y_{1},\dotsc ,y_{s}} ,我们有期望的结果。
◻ {\displaystyle \Box }
回想一下概率/重要分布 一章, N 2 ( μ , Σ ) {\displaystyle {\mathcal {N}}_{2}({\boldsymbol {\mu }},{\boldsymbol {\Sigma }})} 的联合概率密度函数为 f ( x , y ) = 1 2 π σ X σ Y 1 − ρ 2 exp ( − 1 2 ( 1 − ρ 2 ) ( ( x − μ X σ X ) 2 − 2 ρ ( x − μ X σ X ) ( y − μ Y σ Y ) + ( y − μ Y σ Y ) 2 ) ) , ( x , y ) ∈ R 2 {\displaystyle f(x,y)={\frac {1}{2\pi \sigma _{X}\sigma _{Y}{\sqrt {1-\rho ^{2}}}}}\exp \left(-{\frac {1}{2(1-\rho ^{2})}}\left(\left({\frac {x-\mu _{X}}{\sigma _{X}}}\right)^{2}-2\rho \left({\frac {x-\mu _{X}}{\sigma _{X}}}\right)\left({\frac {y-\mu _{Y}}{\sigma _{Y}}}\right)+\left({\frac {y-\mu _{Y}}{\sigma _{Y}}}\right)^{2}\right)\right),\quad (x,y)\in \mathbb {R} ^{2}} ,并且在本例中 X ∼ N ( μ X , σ X 2 ) {\displaystyle X\sim {\mathcal {N}}(\mu _{X},\sigma _{X}^{2})} 和 Y ∼ N ( μ Y , σ Y 2 ) {\displaystyle Y\sim {\mathcal {N}}(\mu _{Y},\sigma _{Y}^{2})} 。其中 ρ = ρ ( X , Y ) {\displaystyle \rho =\rho (X,Y)} 且 σ X , σ Y {\displaystyle \sigma _{X},\sigma _{Y}} 为正数。
命题。 (二元正态分布的条件分布)设 ( X , Y ) T ∼ N 2 ( μ , Σ ) {\displaystyle (X,Y)^{T}\sim {\mathcal {N}}_{2}({\boldsymbol {\mu }},{\boldsymbol {\Sigma }})} . 那么, X | ( Y = y ) ∼ N ( μ X + ρ ⋅ σ X σ Y ( y − μ Y ) , σ X 2 ( 1 − ρ 2 ) ) , and Y | ( X = x ) ∼ N ( μ Y + ρ ⋅ σ Y σ X ( x − μ X ) , σ Y 2 ( 1 − ρ 2 ) ) {\displaystyle X|(Y=y)\sim {\mathcal {N}}\left(\mu _{X}+\rho \cdot {\frac {\sigma _{X}}{\sigma _{Y}}}(y-\mu _{Y}),\sigma _{X}^{2}(1-\rho ^{2})\right),{\text{ and }}Y|(X=x)\sim {\mathcal {N}}\left(\mu _{Y}+\rho \cdot {\frac {\sigma _{Y}}{\sigma _{X}}}(x-\mu _{X}),\sigma _{Y}^{2}(1-\rho ^{2})\right)} (符号滥用:当我们说“ X | ( Y = y ) {\displaystyle X|(Y=y)} ”的分布时,我们的意思是条件 分布 X {\displaystyle X} 在给定 Y = y {\displaystyle Y=y} 下的分布)。
我们可以通过将先前为“无条件”分布建立的概念的条件 版本类推地应用于条件 分布,方法是将“无条件”的累积分布函数 (cdf)、概率密度函数 (pdf) 或概率质量函数 (pmf)(即 F ( ⋅ ) {\displaystyle F(\cdot )} 或 f ( ⋅ ) {\displaystyle f(\cdot )} )替换为它们的条件 对应部分,即 F ( ⋅ | ⋅ ) {\displaystyle F(\cdot {\color {darkgreen}|\cdot })} 或 f ( ⋅ | ⋅ ) {\displaystyle f(\cdot {\color {darkgreen}|\cdot })} 。
定义. 随机变量 X 1 , X 2 , … , X n {\displaystyle X_{1},X_{2},\dotsc ,X_{n}} 在给定 Y = y {\displaystyle Y=y} 的情况下,条件 独立,当且仅当 F X 1 , … , X n | Y ( x 1 , … , x n | y ) = F X 1 | Y ( x 1 | y ) ⋯ F X n | Y ( x n | y ) {\displaystyle F_{X_{1},\dotsc ,X_{n}{\color {darkgreen}|Y}}(x_{1},\dotsc ,x_{n}{\color {darkgreen}|y})=F_{X_{1}{\color {darkgreen}|Y}}(x_{1}{\color {darkgreen}|y})\dotsb F_{X_{n}{\color {darkgreen}|Y}}(x_{n}{\color {darkgreen}|y})} 或者 f X 1 , … , X n | Y ( x 1 , … , x n | y ) = f X 1 | Y ( x 1 | y ) ⋯ f X n | Y ( x n | y ) {\displaystyle f_{X_{1},\dotsc ,X_{n}{\color {darkgreen}|Y}}(x_{1},\dotsc ,x_{n}{\color {darkgreen}|y})=f_{X_{1}{\color {darkgreen}|Y}}(x_{1}{\color {darkgreen}|y})\dotsb f_{X_{n}{\color {darkgreen}|Y}}(x_{n}{\color {darkgreen}|y})} 。对于每个实数 x 1 , … , x n , y {\displaystyle x_{1},\dotsc ,x_{n},{\color {darkgreen}y}} 以及每个正整数 n {\displaystyle n} ,其中 F X 1 , … , X n | Y {\displaystyle F_{X_{1},\dotsc ,X_{n}{\color {darkgreen}|Y}}} 和 f X 1 , … , X n | Y {\displaystyle f_{X_{1},\dotsc ,X_{n}{\color {darkgreen}|Y}}} 分别表示 ( X 1 , … , X n ) {\displaystyle (X_{1},\dotsc ,X_{n})} 在给定 Y = y {\displaystyle Y=y} 的条件下的联合累积分布函数和概率函数。
备注。
对于随机变量,条件独立和独立之间没有关系,也就是说其中一个不 意味着另一个。
类似地,我们有无意识统计学家定律的条件版本。
证明: E [ g ( X ) | Y ] = { ∑ x g ( x ) f X | Y ( x | Y ) = ∑ x g ( x ) f X ( x ) = E [ g ( X ) ] , X is discrete ; ∫ − ∞ ∞ g ( x ) f X | Y ( x | Y ) d x = ∫ − ∞ ∞ g ( x ) f X ( x ) d x = E [ g ( X ) ] , X is continuous . {\displaystyle \mathbb {E} [g(X)|Y]={\begin{cases}\displaystyle \sum _{x}^{}g(x)f_{X|Y}(x|Y)=\sum _{x}^{}g(x)f_{X}(x)=\mathbb {E} [g(X)],&X{\text{ is discrete}};\\\displaystyle \int _{-\infty }^{\infty }g(x)f_{X|Y}(x|Y)\,dx=\int _{-\infty }^{\infty }g(x)f_{X}(x)\,dx=\mathbb {E} [g(X)],&X{\text{ is continuous}}.\end{cases}}}
◻ {\displaystyle \Box }
备注。
如果 X , Y {\displaystyle X,Y} 不独立,则该等式可能不 成立。
E [ ⋅ ] {\displaystyle \mathbb {E} [\cdot ]} 的性质仍然适用于条件期望 E [ ⋅ | Y ] {\displaystyle \mathbb {E} [\cdot {\color {darkgreen}|Y}]} ,其中所有“无条件”期望都被替换为“条件”期望,并进行了一些适当的修改,如下所示
命题. (条件期望的性质)对于每个随机变量 Y {\displaystyle Y} ,
(线性) E [ α ( Y ) ⏟ constant given Y X 1 + β ( Y ) ⏟ constant given Y X 2 + γ ( Y ) ⏟ constant given Y | Y ] = α ( Y ) E [ X 1 | Y ] + β ( Y ) E [ X 2 | Y ] + γ ( Y ) {\displaystyle \mathbb {E} [\underbrace {\alpha {\color {darkgreen}(Y)}} _{{\text{constant given }}Y}X_{1}+\underbrace {\beta {\color {darkgreen}(Y)}} _{{\text{constant given }}Y}X_{2}+\underbrace {\gamma {\color {darkgreen}(Y)}} _{{\text{constant given }}Y}{\color {darkgreen}|Y}]=\alpha {\color {darkgreen}(Y)}\mathbb {E} [X_{1}{\color {darkgreen}|Y}]+\beta {\color {darkgreen}(Y)}\mathbb {E} [X_{2}{\color {darkgreen}|Y}]+\gamma {\color {darkgreen}(Y)}}
对于每个函数 α ( Y ) , β ( Y ) , γ ( Y ) {\displaystyle \alpha (Y),\beta (Y),\gamma (Y)} 是 Y {\displaystyle Y} 的函数, 以及每个随机变量 X 1 , X 2 {\displaystyle X_{1},X_{2}}
(非负性) 如果 X | Y ≥ 0 {\displaystyle X{\color {darkgreen}|Y}\geq 0} , 那么 E [ X | Y ] ≥ 0 {\displaystyle \mathbb {E} [X{\color {darkgreen}|Y}]\geq 0}
(单调性) 如果 X 1 ≥ X 2 {\displaystyle X_{1}\geq X_{2}} , 那么 E [ X 1 | Y ] ≥ E [ X 2 | Y ] {\displaystyle \mathbb {E} [X_{1}{\color {darkgreen}|Y}]\geq \mathbb {E} [X_{2}{\color {darkgreen}|Y}]} 对于每个随机变量 X 1 , X 2 {\displaystyle X_{1},X_{2}}
(三角不等式)
| E [ X | Y ] | ≤ E [ | X | | Y ] {\displaystyle |\mathbb {E} [X{\color {darkgreen}|Y}]|\leq \mathbb {E} [|X|{\color {darkgreen}|Y}]}
(在独立性下的乘法性) 如果 X 1 , X 2 {\displaystyle X_{1},X_{2}} 在给定 Y {\displaystyle Y} 时条件独立,
E [ X 1 X 2 | Y ] = E [ X 1 | Y ] E [ X 2 | Y ] {\displaystyle \mathbb {E} [X_{1}X_{2}{\color {darkgreen}|Y}]=\mathbb {E} [X_{1}{\color {darkgreen}|Y}]\mathbb {E} [X_{2}{\color {darkgreen}|Y}]}
证明。 证明与“无条件”期望的证明类似。
◻ {\displaystyle \Box }
关于条件期望的以下定理非常重要。
证明。 E [ E [ g ( X ) | Y ] ] = { ∑ y E [ g ( X ) | Y = y ] f Y ( y ) = ∑ x ( ∑ y g ( x ) f X | Y ( x | y ) ⏞ f ( x , y ) / f Y ( y ) f Y ( y ) ) = ∑ x g ( x ) ( ∑ y f ( x , y ) ⏞ f X ( x ) ) = E [ g ( X ) ] , X is discrete ; ∫ − ∞ ∞ E [ g ( X ) | Y = y ] f Y ( y ) d y = ∫ − ∞ ∞ ( ∫ − ∞ ∞ g ( x ) f X | Y ( x | y ) ⏟ f ( x , y ) / f Y ( y ) d x ) f Y ( y ) d y = ∫ − ∞ ∞ g ( x ) ( ∫ − ∞ ∞ f ( x , y ) d y ⏟ f X ( x ) ) d x = E [ g ( X ) ] , X is continuous . {\displaystyle \mathbb {E} [\mathbb {E} [g(X)|Y]]={\begin{cases}\displaystyle \sum _{y}^{}\mathbb {E} [g(X)|Y=y]f_{Y}(y)=\sum _{x}^{}{\bigg (}\sum _{y}^{}g(x)\overbrace {f_{X|Y}(x|y)} ^{f(x,y){\cancel {/f_{Y}(y)}}}{\cancel {f_{Y}(y)}}{\bigg )}=\sum _{x}^{}g(x){\bigg (}\overbrace {\sum _{y}^{}f(x,y)} ^{f_{X}(x)}{\bigg )}=\mathbb {E} [g(X)],&X{\text{ is discrete}};\\\displaystyle \int _{-\infty }^{\infty }\mathbb {E} [g(X)|Y=y]f_{Y}(y)\,dy=\int _{-\infty }^{\infty }{\bigg (}\int _{-\infty }^{\infty }g(x)\underbrace {f_{X|Y}(x|y)} _{f(x,y){\cancel {/f_{Y}(y)}}}\,dx{\bigg )}{\cancel {f_{Y}(y)}}\,dy=\int _{-\infty }^{\infty }g(x){\bigg (}\underbrace {\int _{-\infty }^{\infty }f(x,y)\,dy} _{f_{X}(x)}{\bigg )}\,dx=\mathbb {E} [g(X)],&X{\text{ is continuous}}.\end{cases}}}
◻ {\displaystyle \Box }
备注。
我们可以用 g ( X , Y , Z , … ) {\displaystyle g(X,Y,Z,\dotsc )} 代替 g ( X ) {\displaystyle g(X)} ,得到
E [ g ( X , Y , Z , … ) ] = E [ E [ g ( X , Y , Z , … ) | Y ] ] = E [ E [ g ( X , Y , Z , … | Y , Z , … ] ] = ⋯ {\displaystyle \mathbb {E} [g(X,Y,Z,\dotsc )]=\mathbb {E} [\mathbb {E} [g(X,{\color {darkgreen}Y},Z,\dotsc ){\color {darkgreen}|Y}]]=\mathbb {E} [\mathbb {E} [g(X,{\color {darkgreen}Y,Z,\dotsc |Y,Z,\dotsc }]]=\dotsb }
推论. (全概率公式的推广)对于每一个事件 A {\displaystyle A} , E Y [ P ( A | Y ) ] = P ( A ) . {\displaystyle \mathbb {E} _{Y}[\mathbb {P} (A|{\color {darkgreen}Y})]=\mathbb {P} (A).}
证明。
E [ 1 { A } | Y ] = 1 ( P ( 1 { A } = 1 | Y ) + 0 ( P ( 1 { A } = 0 | Y ) = P ( A | Y ) . {\displaystyle \mathbb {E} [\mathbf {1} \{A\}|Y]=1(\mathbb {P} (\mathbf {1} \{A\}=1|Y)+0(\mathbb {P} (\mathbf {1} \{A\}=0|Y)=\mathbb {P} (A|Y).}
E Y [ P ( A | Y ) ] = above E Y [ E [ 1 { A } | Y ] ] = E [ 1 { A } ] = P ( A ) . {\displaystyle \mathbb {E} _{Y}[\mathbb {P} (A|{\color {darkgreen}Y})]{\overset {\text{ above }}{=}}\mathbb {E} _{Y}[\mathbb {E} [\mathbf {1} \{A\}|{\color {darkgreen}Y}]]=\mathbb {E} [\mathbf {1} \{A\}]=\mathbb {P} (A).}
◻ {\displaystyle \Box }
备注。
事件的数量可以是有限的,只要它们是互斥的,并且它们的并集是整个样本空间
如果 X = 1 { B } {\displaystyle X=\mathbf {1} \{B\}} ,它简化为 全概率公式
示例。 令 X {\displaystyle X} 是人类身高(单位:米)。从一个由 相同数量 的男性和女性组成的群体中随机选择一个人。假设男性的平均身高是 1.8 米,女性的平均身高是 1.7 米,那么整个人口的平均身高是 E [ X ] = E [ X | { man selected } ] P ( man selected ) + E [ X | { woman selected } ] P ( woman selected ) = 1.8 ( 1 / 2 ) + 1.7 ( 1 / 2 ) = 1.75 {\displaystyle \mathbb {E} [X]=\mathbb {E} [X|\{{\text{man selected}}\}]\mathbb {P} ({\text{man selected}})+\mathbb {E} [X|\{{\text{woman selected}}\}]\mathbb {P} ({\text{woman selected}})=1.8(1/2)+1.7(1/2)=1.75}
证明。 根据条件期望加权平均计算期望的公式, E [ X 1 { A } ] = E [ X 1 { A } ⏟ 1 | A ] P ( A ) + E [ X 1 { A } ⏟ 0 | A c ] P ( A c ) = E [ X | A ] P ( A ) , {\displaystyle \mathbb {E} [X\mathbf {1} \{A\}]=\mathbb {E} [X\underbrace {\mathbf {1} \{A\}} _{1}|A]\mathbb {P} (A)+\mathbb {E} [X\underbrace {\mathbf {1} \{A\}} _{0}|A^{c}]\mathbb {P} (A^{c})=\mathbb {E} [X|A]\mathbb {P} (A),} ,如果 P ( A ) > 0 {\displaystyle \mathbb {P} (A)>0} ,则结果成立。
◻ {\displaystyle \Box }
备注。
如果 X = 1 { B } {\displaystyle X=\mathbf {1} \{B\}} ,它将简化为条件概率 P ( B | A ) {\displaystyle \mathbb {P} (B|A)} 的 定义 ,这是概率和期望之间的基本桥梁。
定义了 条件 期望后,我们也可以有 条件 方差、协方差和相关系数,因为方差、协方差和相关系数都是基于期望构建的。
命题。 (双变量正态分布的条件期望)令 ( X , Y ) T ∼ N 2 ( μ , Σ ) {\displaystyle (X,Y)^{T}\sim {\mathcal {N}}_{2}({\boldsymbol {\mu }},{\boldsymbol {\Sigma }})} . 那么, E [ X | Y = y ] = E [ X ] + ρ ( X , Y ) ⋅ Var ( X ) Var ( Y ) ( y − E [ Y ] ) , and E [ Y | X = x ] = E [ Y ] + ρ ( X , Y ) ⋅ Var ( Y ) Var ( X ) ( x − E [ X ] ) . {\displaystyle \mathbb {E} [X|Y=y]=\mathbb {E} [X]+\rho (X,Y)\cdot {\frac {\sqrt {\operatorname {Var} (X)}}{\sqrt {\operatorname {Var} (Y)}}}(y-\mathbb {E} [Y]),{\text{ and }}\mathbb {E} [Y|X=x]=\mathbb {E} [Y]+\rho (X,Y)\cdot {\frac {\sqrt {\operatorname {Var} (Y)}}{\sqrt {\operatorname {Var} (X)}}}(x-\mathbb {E} [X]).}
证明。
该结果直接从关于双变量正态分布的条件分布的命题得出。
◻ {\displaystyle \Box }
类似地,我们有 条件 方差的性质,它们与方差的性质类似。
证明. 证明类似于方差性质的证明。
◻ {\displaystyle \Box }
除了全期望公式,我们还有全方差公式,如下
命题. (全方差公式) 对于每个随机变量 X , Y {\displaystyle X,Y} , Var ( X ) = E [ Var ( X | Y ) ] + Var ( E [ X | Y ] ) . {\displaystyle \operatorname {Var} (X)=\mathbb {E} [\operatorname {Var} (X|Y)]+\operatorname {Var} (\mathbb {E} [X|Y]).}
证明。 E [ Var ( X | Y ) ] + Var ( E [ X | Y ] ) = E [ E [ X 2 | Y ] − ( E [ X | Y ] ) 2 ] + E [ ( E [ X | Y ] ) 2 ] − ( E [ E [ X | Y ] ] ) 2 = E [ E [ X 2 | Y ] ] + E [ ( E [ X | Y ] ) 2 ] + E [ ( E [ X | Y ] ) 2 ] − ( E [ E [ X | Y ] ] ) 2 = E [ X 2 ] − ( E [ X ] ) 2 by law of total expectation = Var ( X ) {\displaystyle {\begin{aligned}\mathbb {E} [\operatorname {Var} (X|Y)]+\operatorname {Var} (\mathbb {E} [X|Y])&=\mathbb {E} \left[\mathbb {E} [X^{2}|Y]-(\mathbb {E} [X|Y])^{2}\right]+\mathbb {E} \left[(\mathbb {E} [X|Y])^{2}\right]-(\mathbb {E} [\mathbb {E} [X|Y]])^{2}\\&=\mathbb {E} [\mathbb {E} [X^{2}|Y]]{\cancel {+\mathbb {E} \left[(\mathbb {E} [X|Y])^{2}\right]}}+\mathbb {E} \left[(\mathbb {E} [X|Y])^{2}\right]{\cancel {-(\mathbb {E} [\mathbb {E} [X|Y]])^{2}}}\\&=\mathbb {E} [X^{2}]-(\mathbb {E} [X])^{2}\qquad {\text{by law of total expectation}}\\&=\operatorname {Var} (X)\end{aligned}}}
◻ {\displaystyle \Box }
备注。
我们可以用 ( Y 1 , … , Y s ) T {\displaystyle (Y_{1},\dotsc ,Y_{s})^{T}} ,一个随机向量,来替换 Y {\displaystyle Y} 。
命题。 (二元正态分布的条件方差)令 ( X , Y ) T ∼ N 2 ( μ , Σ ) {\displaystyle (X,Y)^{T}\sim {\mathcal {N}}_{2}({\boldsymbol {\mu }},{\boldsymbol {\Sigma }})} 。那么, Var ( X | Y = y ) = ( 1 − ( ρ ( X , Y ) ) 2 ) Var ( X ) , and Var ( Y | X = x ) = ( 1 − ( ρ ( X , Y ) 2 ) Var ( Y ) {\displaystyle \operatorname {Var} (X|Y=y)={\big (}1-(\rho (X,Y))^{2}{\big )}\operatorname {Var} (X),{\text{ and }}\operatorname {Var} (Y|X=x)={\big (}1-(\rho (X,Y)^{2}{\big )}\operatorname {Var} (Y)}
证明。
这个结果可以直接从关于二元正态分布条件分布的命题中得出。
◻ {\displaystyle \Box }
备注。
可以观察到,条件中的 x {\displaystyle x} 和 y {\displaystyle y} 的精确值并不重要。对于不同的值,结果是相同的。
命题。 (条件协方差的性质)
(i) (symmetry) for each random variable X , Y {\displaystyle X,Y} , Cov ( X , Y | Z ) = Cov ( Y , X | Z ) {\displaystyle \operatorname {Cov} (X,Y{\color {darkgreen}|Z})=\operatorname {Cov} (Y,X{\color {darkgreen}|Z})} (ii) for each random variable X {\displaystyle X} , Cov ( X , X | Z ) = Var ( X | Z ) {\displaystyle \operatorname {Cov} (X,X{\color {darkgreen}|Z})=\operatorname {Var} (X{\color {darkgreen}|Z})} (iii) (alternative formula of covariance) Cov ( X , Y | Z ) = E [ X Y | Z ] − E [ X | Z ] E [ Y | Z ] {\displaystyle \operatorname {Cov} (X,Y{\color {darkgreen}|Z})=\mathbb {E} [XY{\color {darkgreen}|Z}]-\mathbb {E} [X{\color {darkgreen}|Z}]\mathbb {E} [Y{\color {darkgreen}|Z}]} (iv) for each constant a 1 , … , a n , b 1 , … , b m , c , d {\displaystyle a_{1},\dotsc ,a_{n},b_{1},\dotsc ,b_{m},c,d} , and for each random variables X 1 , … , X n , Y 1 , … , Y m {\displaystyle X_{1},\dotsc ,X_{n},Y_{1},\dotsc ,Y_{m}} , Cov ( ∑ i = 1 n ( a i X i + c ) , ∑ j = 1 m ( b j Y j + d ) | Z ) = ∑ i = 1 n ∑ j = 1 m a i b j Cov ( X 1 , Y j | Z ) {\displaystyle \operatorname {Cov} \left(\sum _{i=1}^{n}(a_{i}X_{i}+c),\sum _{j=1}^{m}(b_{j}Y_{j}+d){\color {darkgreen}|Z}\right)=\sum _{i=1}^{n}\sum _{j=1}^{m}a_{i}b_{j}\operatorname {Cov} (X_{1},Y_{j}{\color {darkgreen}|Z})} (v) for each random variable X 1 , … , X n {\displaystyle X_{1},\dotsc ,X_{n}} , Var ( X 1 + ⋯ + X n | Z ) = ∑ i = 1 n Var ( X i | Z ) + 2 ∑ 1 ≤ i < j ≤ n Cov ( X i , Y j | Z ) {\displaystyle \operatorname {Var} (X_{1}+\dotsb +X_{n}{\color {darkgreen}|Z})=\sum _{i=1}^{n}\operatorname {Var} (X_{i}{\color {darkgreen}|Z})+2\sum _{1\leq i<j\leq n}^{}\operatorname {Cov} (X_{i},Y_{j}{\color {darkgreen}|Z})}
备注。
类似于“无条件”相关系数,条件 相关系数也介于 − 1 {\displaystyle -1} 和 1 {\displaystyle 1} 之间(包含边界值)。证明方法类似,只是将所有无条件项替换为条件项。
备注。
然后,我们可以得到 条件 中位数、四分位距等,它们以与无条件分位数相同的方式使用 条件 分位数来定义。