统计/分布/超几何分布

超几何分布描述了从包含 *m* 个成功的总体中，不放回地抽取 *n* 次后，成功次数的分布情况。

它的概率质量函数为

f(x)={{{m \choose x}{{N-m} \choose {n-x}}} \over {N \choose n}}{\text{ for all }}x\in [0,n]

从技术上讲，函数的支持范围仅在 *x∈[max(0, n+m-N), min(m, n)]* 处。在该范围不为 *[0,n]* 的情况下，*f(x)=0*，因为对于 *k>0*， ${0 \choose k}=0$ .

我们首先检查 *f(x)* 是否是一个有效的概率质量函数。这要求它在任何地方都非负，并且它的总和等于 1。第一个条件是显而易见的。对于第二个条件，我们将从范德蒙德恒等式开始

\sum _{x=0}^{n}{a \choose x}{b \choose n-x}={a+b \choose n}

\sum _{x=0}^{n}{{a \choose x}{b \choose n-x} \over {a+b \choose n}}=1

现在我们看到，如果 *a=m* 并且 *b=N-m*，那么条件就满足了。

我们推导出平均值如下

\operatorname {E} [X]=\sum _{x=0}^{n}x\cdot f(x;n,m,N)=\sum _{x=0}^{n}x\cdot {{{m \choose x}{{N-m} \choose {n-x}}} \over {N \choose n}}

\operatorname {E} [X]=0\cdot {{{m \choose 0}{{N-m} \choose {n-0}}} \over {N \choose n}}+\sum _{x=1}^{n}x\cdot {{{m \choose x}{{N-m} \choose {n-x}}} \over {N \choose n}}

我们使用恒等式 ${\binom {a}{b}}={\frac {a}{b}}{\binom {a-1}{b-1}}$ 在分母中。

\operatorname {E} [X]=0+\sum _{x=1}^{n}x\cdot {{{m \choose x}{{N-m} \choose {n-x}}} \over {{N \over n}{{N-1} \choose {n-1}}}}

\operatorname {E} [X]={n \over N}\sum _{x=1}^{n}x\cdot {{{m \choose x}{{N-m} \choose {n-x}}} \over {{N-1} \choose {n-1}}}

接下来我们使用恒等式 $b{\binom {a}{b}}=a{\binom {a-1}{b-1}}$ 在分子中的第一个二项式中。

\operatorname {E} [X]={n \over N}\sum _{x=1}^{n}{m{{m-1 \choose x-1}{{N-m} \choose {n-x}}} \over {{N-1} \choose {n-1}}}

接下来，对于和式中的变量，我们定义相应的比它们少一的素变量。所以 N′=N−1, m′=m−1, x′=x−1, n′=n-1.

\operatorname {E} [X]={mn \over N}\sum _{x'=0}^{n'}{{{m' \choose x'}{{N'-m'} \choose {n'-x'}}} \over {{N'} \choose {n'}}}

\operatorname {E} [X]={mn \over N}\sum _{x'=0}^{n'}f(x';n',m',N')

现在我们看到，这个和式是关于修改参数的超几何分布pmf的总和。它等于1。因此

\operatorname {E} [X]={nm \over N}

我们首先确定 E(X²).

\operatorname {E} [X^{2}]=\sum _{x=0}^{n}f(x;n,m,N)\cdot x^{2}=\sum _{x=0}^{n}{{{m \choose x}{{N-m} \choose {n-x}}} \over {N \choose n}}\cdot x^{2}

\operatorname {E} [X^{2}]={{{m \choose 0}{{N-m} \choose {n-0}}} \over {N \choose n}}\cdot 0^{2}+\sum _{x=1}^{n}{{{m \choose x}{{N-m} \choose {n-x}}} \over {N \choose n}}\cdot x^{2}

\operatorname {E} [X^{2}]=0+\sum _{x=1}^{n}{{m{m-1 \choose x-1}{{N-m} \choose {n-x}}} \over {{N \over n}{{N-1} \choose {n-1}}}}\cdot x

\operatorname {E} [X^{2}]={mn \over N}\sum _{x=1}^{n}{{{m-1 \choose x-1}{{N-m} \choose {n-x}}} \over {{N-1} \choose {n-1}}}\cdot x

我们使用与推导均值时相同的变量替换。

\operatorname {E} [X^{2}]={mn \over N}\sum _{x'=0}^{n'}{{{m' \choose x'}{{N'-m'} \choose {n'-x'}}} \over {{N'} \choose {n'}}}(x'+1)

\operatorname {E} [X^{2}]={mn \over N}\left[\sum _{x'=0}^{n'}{{{m' \choose x'}{{N'-m'} \choose {n'-x'}}} \over {{N'} \choose {n'}}}x'+\sum _{x'=0}^{n'}{{{m' \choose x'}{{N'-m'} \choose {n'-x'}}} \over {{N'} \choose {n'}}}\right]

第一个求和是具有参数 (n',m',N') 的超几何随机变量的期望值。第二个求和是该随机变量的概率质量函数的总和。

\operatorname {E} [X^{2}]={mn \over N}\left[{n'm' \over N'}+1\right]

\operatorname {E} [X^{2}]={mn \over N}\left[{(n-1)(m-1) \over (N-1)}+1\right]={mn \over N}\left[{{(n-1)(m-1)+(N-1)} \over (N-1)}\right]

然后我们求解方差

\operatorname {Var} (X)=\operatorname {E} [X^{2}]-(\operatorname {E} [X])^{2}

\operatorname {Var} (X)={mn \over N}\left[{{(n-1)(m-1)+(N-1)} \over (N-1)}\right]-\left({mn \over N}\right)^{2}

\operatorname {Var} (X)={Nmn \over N^{2}}\left[{{(n-1)(m-1)+(N-1)} \over (N-1)}\right]-{(N-1)(mn)^{2} \over (N-1)N^{2}}

\operatorname {Var} (X)={nm(N-n)(N-m) \over N^{2}(N-1)}

或者等效地，

\operatorname {Var} (X)={nm \over N}\left(1-{n \over N}\right)\left(1-{m-1 \over N-1}\right)

超几何分布
概率质量函数
累积分布函数
符号	$h(k)={{{m \choose k}{{N-m} \choose {n-k}}} \over {N \choose n}}$
参数	${\begin{aligned}N&\in \left\{0,1,2,\dots \right\}\\m&\in \left\{0,1,2,\dots ,N\right\}\\n&\in \left\{0,1,2,\dots ,N\right\}\end{aligned}}\,$
支持	$\scriptstyle {k\,\in \,\left\{\max {(0,\,n+m-N)},\,\dots ,\,\min {(n,\,m)}\right\}}\,$
PMF	${{{m \choose k}{{N-m} \choose {n-k}}} \over {N \choose n}}$
CDF	$1-{{{n \choose {k+1}}{{N-n} \choose {m-k-1}}} \over {N \choose m}}\,_{3}F_{2}\!\!\left[{\begin{array}{c}1,\ k+1-m,\ k+1-n\\k+2,\ N+k+2-m-n\end{array}};1\right],$ 其中 $\,_{p}F_{q}$ 是广义超几何函数
期望值	${nm \over N}$
中位数	模式 = $\left\lceil {\frac {(n+1)(m+1)}{N+2}}\right\rceil -1,\left\lfloor {\frac {(n+1)(m+1)}{N+2}}\right\rfloor$
方差	${nm \over N}\left(1-{n \over N}\right)\left(1-{m-1 \over N-1}\right)$
偏度	${\frac {(N-2m)(N-1)^{\frac {1}{2}}(N-2n)}{[nm(N-m)(N-n)]^{\frac {1}{2}}(N-2)}}$
峰度	$\left.{\frac {1}{nm(N-m)(N-n)(N-2)(N-3)}}\cdot \right.$ ${\Big [}(N-1)N^{2}{\Big (}N(N+1)-6m(N-m)-6n(N-n){\Big )}+{}$ ${}+6nm(N-m)(N-n)(5N-6){\Big ]}$
熵	???
矩生成函数	${\frac {{N-m \choose n}\scriptstyle {\,_{2}F_{1}(-n,-m;N-m-n+1;e^{t})}}{N \choose n}}\,\!$
特征函数	${\frac {{N-m \choose n}\scriptstyle {\,_{2}F_{1}(-n,-m;N-m-n+1;e^{it})}}{N \choose n}}$