当 伯努利分布 询问“这个单一事件会成功吗?”这个问题时,二项式与“在给定的试验次数中,会有多少次成功?”这个问题相关联。一些用二项式分布建模的示例问题是
- 在十次抛掷中,这枚硬币会有多少次正面朝上?
- 在特定医院特定日期出生的儿童中,有多少人是女孩?
- 在特定教室中,有多少学生有绿色的眼睛?
- 在一个蜂群中,有多少只蚊子在喷洒杀虫剂后会死亡?
伯努利分布和二项式分布之间的关系是直观的:二项式分布是由多个伯努利试验组成的。我们进行 次重复实验,其中成功的概率由参数 给出,并将成功的次数加起来。这个成功的次数由随机变量 X 表示。X 的值介于 0 和 之间。
当一个随机变量 X 服从参数为 和 的二项式分布时,我们将其写为 X ~ Bin(n,p) 或 X ~ B(n,p),其概率质量函数由以下公式给出
其中
要回顾阶乘 (n!),请返回到本维基教科书前面部分的 复习课程。
让我们通过一个二项分布的简单示例来进行说明。 我们将使用一些非常小的数字,因为阶乘可能很难计算。 我们将询问五个随机的人,他们是否相信其他星球上存在生命。 在这个例子中,我们假设我们知道 30% 的人认为这是真的。 我们想问这个问题:“有多少人会说他们相信外星生命?” 事实上,我们想比这更具体:**“恰好有 2 个人说他们相信外星生命的概率是多少?”**
我们知道需要代入方程的所有值。 被问的人数 n=5。 任何特定的人回答“是”的概率 p=0.3。 (请记住,我说 30% 的人相信其他星球上存在生命!)最后,我们询问恰好有 2 个人回答“是”的概率,所以 k=2。 这将得出以下方程
- 因为
以下是 X 的所有可能值的概率。 你可以通过将上述方程中的 k=2 替换为 0 到 5 之间的全部值来获得这些值。
k 的值 |
概率 f(k) |
0 |
0.16807
|
1 |
0.36015
|
2 |
0.30870
|
3 |
0.13230
|
4 |
0.02835
|
5 |
0.00243
|
我们能从这些结果中了解到什么? 首先,我们会看到只有一个人承认相信其他星球上存在生命的可能性略大一些。 没有人相信的可能性很大(约 17%),只有 0.24%(每千人略高于 2 人)的可能性是所有五个人都会是信徒。
以上面的例子为例。 让我们逐个考虑这五个人。
任何一个人相信外星生命存在的概率是 30%,也就是 0.3。 所以任何两个人都相信外星生命存在的概率是 0.3 的平方。 同样,任何一个人不相信外星生命存在的概率是 70%,也就是 0.7,所以任何三个人都不相信外星生命存在的概率是 0.7 的立方。
现在,对于五个人中有两个人相信外星生命,必须满足两个条件:两个人相信外星生命,而三个人不相信。 因此,五个人中有两个人相信外星生命存在的概率似乎是 0.3 的平方(两个信徒)乘以 0.7 的立方(三个不信徒),也就是 0.03087。
然而,在这样做时,我们只考虑了第一个被选中的人是信徒的情况。 我们如何考虑第三和第五个人是信徒的情况,这也意味着五个人中有两个信徒?
答案在于组合学。 考虑到五个人中前两个人相信外星生命存在的概率是 0.03087,我们注意到从五个人中选出两个人集的方法是 C(5,2),也就是 10,即,有十种方法可以考虑五个人中的两个人是“前两个人”。 这就是我们为什么乘以 C(n,k) 的原因。 五个人中任何两个人都是信徒的概率是十倍于 0.03087,也就是 0.3087。
均值可以推导出如下。
现在令w=x-1 和 m=n-1。我们可以看到m-w=n-x。现在我们可以将求和重写为
现在我们可以看到,该求和是对二项式随机变量分布为Bin(m, p)的完整 pmf 的求和。它等于 1(并且可以使用二项式定理轻松验证)。因此,我们有
我们使用以下公式推导出方差
我们已经计算了上面的 E[X],所以现在我们将计算 E[X2],然后回到这个方差公式
我们可以使用我们在上面推导出均值时获得的经验。我们使用m 和 w 的相同定义。
第一个求和的形式与我们在均值(上面)中计算的相同。它加起来为mp。第二个求和为1。
将此结果代入方差表达式,以及均值(E(X) = np),我们得到
- ↑ 25