统计/分布/二项式

简介
不同类型的资料
1. 原始资料和次级资料
2. 定量资料和定性资料
资料收集方法
资料分析
1. 资料清理
2. 移动平均
总结性统计量
1. 集中趋势的度量
  1. 平均数、中位数和众数
  2. 几何平均数
  3. 调和平均数
  4. 算术平均数、几何平均数和调和平均数之间的关系
  5. 几何中位数
2. 离散程度的度量
资料展示
1. 条形图
2. 比较条形图
3. 直方图
4. 散点图
5. 箱线图
6. 饼图
7. 比较饼图
8. 象形图
9. 折线图
10. 频率多边形
概率
分布
1. 离散分布
2. 连续分布
检验统计假设
点估计 (12:07, 28 March 2007 (UTC))
1. 无偏性
2. 优良性的度量
3. 一致最小方差无偏估计
4. 完备性
5. 充分性和最小充分性
6. 辅助性
练习题
数值方法
时间序列分析
多元资料分析
特定数据集的分析
1. 结核病分析
附录
1. 作者
2. 词汇表
3. 索引
4. 链接

当伯努利分布提出“单个事件是否会成功？”的问题时，二项式与“在给定次数的试验中，有多少次会成功？”的问题相关联。一些用二项式分布建模的示例问题包括

在十次抛掷中，硬币会落到正面多少次？
在某一天在某家医院出生的儿童中，有多少个是女孩？
在某个教室里，有多少个学生有绿色的眼睛？
在蜂群中，有多少只蚊子在喷洒杀虫剂后会死亡？

伯努利分布和二项式分布之间的关系是直观的：二项式分布是由多个伯努利试验组成的。我们进行 $n$ 次重复实验，其中成功的概率由参数 $p$ 给出，并将成功次数加起来。这个成功次数由随机变量 X 表示。X 的值介于 0 和 $n$ 之间。

当随机变量 X 具有参数为 $p$ 和 $n$ 的二项式分布时，我们将其写为 X ~ Bin(n,p) 或 X ~ B(n,p)，概率质量函数由以下方程给出

P\left[X=k\right]={\begin{cases}{n \choose k}p^{k}\left(1-p\right)^{n-k}\ &0\leq k\leq n\\0&{\mbox{otherwise}}\end{cases}}\quad 0\leq p\leq 1,\quad n\in \mathbb {N}

其中 ${n \choose k}={n! \over k!(n-k)!}$

要复习阶乘 (n!)，请返回本华夏公益教科书前面部分的复习课程。

一个例子

让我们通过一个简单的二项分布例子来了解它。我们将使用一些非常小的数字，因为阶乘计算起来很困难。我们将随机询问五个人是否相信外星生命的存在。在这个例子中，我们假设我们知道 30% 的人认为这是真的。我们想问的问题是：“有多少人会说他们相信外星生命？”实际上，我们想更具体一点：“**两个人说他们相信外星生命的概率是多少？**”

我们知道将要代入方程的所有值。被问的人数，n=5。任何特定的人回答“是”的概率，p=0.3。（记住，我说 30% 的人相信外星生命存在！）最后，我们想知道正好有 2 个人回答“是”的概率，所以 k=2。这将得到以下方程

P\left[X=2\right]={5 \choose 2}\cdot {{0.3^{2}\cdot }{\left(1-0.3\right)^{3}}}={10}\cdot {{0.3^{2}}\cdot {\left(1-0.3\right)^{3}}}=0.3087

因为

{5 \choose 2}={5! \over 2!\cdot 3!}={5\cdot 4\cdot 3\cdot 2\cdot 1 \over (2\cdot 1)\cdot (3\cdot 2\cdot 1)}={120 \over 12}=10

以下是 X 所有可能值的概率。您可以通过将上面方程中的 k=2 替换为 0 到 5 之间的任何值来获得这些值。

k 的值	概率 f(k)
0	0.16807
1	0.36015
2	0.30870
3	0.13230
4	0.02835
5	0.00243

从这些结果中我们可以学到什么？首先，我们会发现只有一个人的可能性略高于两个人承认相信外星生命存在。没有人相信它存在有明显的可能性（大约 17%），只有 0.24%（不到千分之二）的可能性是五个人都相信。

方程解释

以上面这个例子为例。让我们逐个考虑五个人。

任何人相信外星生命存在的概率是 30%，即 0.3。因此，任何两个人都相信外星生命存在的概率是 0.3 的平方。类似地，任何人都不相信外星生命存在的概率是 70%，即 0.7，因此，任何三个都不相信外星生命存在的概率是 0.7 的立方。

现在，为了让五个人中有两个人相信外星生命存在，必须满足两个条件：两个人相信外星生命存在，三个人不相信。因此，五个人中有两个人相信外星生命存在的概率似乎是 0.3 的平方（两个相信者）乘以 0.7 的立方（三个不相信者），即 0.03087。

然而，在这样做时，我们只考虑了前两个被选中的人是相信者的情况。我们如何考虑第三个和第五个人是相信者的情况？这也会意味着五个人中总共有两个相信者。

答案在于组合学。考虑到五个人中前两个人相信外星生命存在的概率是 0.03087，我们注意到有 C(5,2)，即 10 种方法可以从五个人中选出一组两个人，也就是说，有 10 种方法可以考虑五个人中的两个人是“前两个人”。这就是我们乘以 C(n,k) 的原因。五个人中任意两个人是相信者的概率是 0.03087 的十倍，即 0.3087。