统计学/分布/二项式

简介
不同类型的资料
1. 原始资料和次级资料
2. 定量资料和定性资料
资料收集方法
资料分析
1. 资料清理
2. 移动平均
汇总统计
1. 集中趋势的度量
  1. 平均数、中位数和众数
  2. 几何平均数
  3. 调和平均数
  4. 算术平均数、几何平均数和调和平均数之间的关系
  5. 几何中位数
2. 离散程度的度量
展示资料
1. 条形图
2. 比较条形图
3. 直方图
4. 散点图
5. 箱线图
6. 饼图
7. 比较饼图
8. 象形图
9. 折线图
10. 频率多边形
概率
分布
1. 离散分布
2. 连续分布
检验统计假设
点估计 (12:07, 28 March 2007 (UTC))
1. 无偏性
2. 优良性的度量
3. UMVUE
4. 完备性
5. 充分性和最小充分性
6. 辅助性
练习题
数值方法
时间序列分析
多元资料分析
特定数据集的分析
1. 结核病分析
附录
1. 作者
2. 词汇表
3. 索引
4. 链接

当伯努利分布询问“这个单一事件会成功吗？”这个问题时，二项式与“在给定的试验次数中，会有多少次成功？”这个问题相关联。一些用二项式分布建模的示例问题是

在十次抛掷中，这枚硬币会有多少次正面朝上？
在特定医院特定日期出生的儿童中，有多少人是女孩？
在特定教室中，有多少学生有绿色的眼睛？
在一个蜂群中，有多少只蚊子在喷洒杀虫剂后会死亡？

伯努利分布和二项式分布之间的关系是直观的：二项式分布是由多个伯努利试验组成的。我们进行 $n$ 次重复实验，其中成功的概率由参数 $p$ 给出，并将成功的次数加起来。这个成功的次数由随机变量 X 表示。X 的值介于 0 和 $n$ 之间。

当一个随机变量 X 服从参数为 $p$ 和 $n$ 的二项式分布时，我们将其写为 X ~ Bin(n,p) 或 X ~ B(n,p)，其概率质量函数由以下公式给出

P\left[X=k\right]={\begin{cases}{n \choose k}p^{k}\left(1-p\right)^{n-k}\ &0\leq k\leq n\\0&{\mbox{otherwise}}\end{cases}}\quad 0\leq p\leq 1,\quad n\in \mathbb {N}

其中 ${n \choose k}={n! \over k!(n-k)!}$

要回顾阶乘 (n!)，请返回到本华夏公益教科书前面部分的复习课程。

一个例子

让我们通过一个二项分布的简单示例来进行说明。我们将使用一些非常小的数字，因为阶乘可能很难计算。我们将询问五个随机的人，他们是否相信其他星球上存在生命。在这个例子中，我们假设我们知道 30% 的人认为这是真的。我们想问这个问题：“有多少人会说他们相信外星生命？” 事实上，我们想比这更具体：**“恰好有 2 个人说他们相信外星生命的概率是多少？”**

我们知道需要代入方程的所有值。被问的人数 n=5。任何特定的人回答“是”的概率 p=0.3。（请记住，我说 30% 的人相信其他星球上存在生命！）最后，我们询问恰好有 2 个人回答“是”的概率，所以 k=2。这将得出以下方程

P\left[X=2\right]={5 \choose 2}\cdot {{0.3^{2}\cdot }{\left(1-0.3\right)^{3}}}={10}\cdot {{0.3^{2}}\cdot {\left(1-0.3\right)^{3}}}=0.3087

因为

{5 \choose 2}={5! \over 2!\cdot 3!}={5\cdot 4\cdot 3\cdot 2\cdot 1 \over (2\cdot 1)\cdot (3\cdot 2\cdot 1)}={120 \over 12}=10

以下是 X 的所有可能值的概率。你可以通过将上述方程中的 k=2 替换为 0 到 5 之间的全部值来获得这些值。

k 的值	概率 f(k)
0	0.16807
1	0.36015
2	0.30870
3	0.13230
4	0.02835
5	0.00243

我们能从这些结果中了解到什么？首先，我们会看到只有一个人承认相信其他星球上存在生命的可能性略大一些。没有人相信的可能性很大（约 17%），只有 0.24%（每千人略高于 2 人）的可能性是所有五个人都会是信徒。

方程的解释

以上面的例子为例。让我们逐个考虑这五个人。

任何一个人相信外星生命存在的概率是 30%，也就是 0.3。所以任何两个人都相信外星生命存在的概率是 0.3 的平方。同样，任何一个人不相信外星生命存在的概率是 70%，也就是 0.7，所以任何三个人都不相信外星生命存在的概率是 0.7 的立方。

现在，对于五个人中有两个人相信外星生命，必须满足两个条件：两个人相信外星生命，而三个人不相信。因此，五个人中有两个人相信外星生命存在的概率似乎是 0.3 的平方（两个信徒）乘以 0.7 的立方（三个不信徒），也就是 0.03087。

然而，在这样做时，我们只考虑了第一个被选中的人是信徒的情况。我们如何考虑第三和第五个人是信徒的情况，这也意味着五个人中有两个信徒？

答案在于组合学。考虑到五个人中前两个人相信外星生命存在的概率是 0.03087，我们注意到从五个人中选出两个人集的方法是 C(5,2)，也就是 10，即，有十种方法可以考虑五个人中的两个人是“前两个人”。这就是我们为什么乘以 C(n,k) 的原因。五个人中任何两个人都是信徒的概率是十倍于 0.03087，也就是 0.3087。