跳至内容

统计/分布/二项式

来自维基教科书,开放书籍,开放世界
(重定向自 Statistics:Distributions/Binomial)

统计


  1. 简介
    1. 什么是统计?
    2. 现代统计中的主题
    3. 为什么我应该学习统计学? 0% developed
    4. 我需要知道什么才能学习统计学?
  2. 不同类型的资料
    1. 原始资料和次级资料
    2. 定量资料和定性资料
  3. 资料收集方法
    1. 实验
    2. 抽样调查
    3. 观察性研究
  4. 资料分析
    1. 资料清理
    2. 移动平均
  5. 总结性统计量
    1. 集中趋势的度量
      1. 平均数、中位数和众数
      2. 几何平均数
      3. 调和平均数
      4. 算术平均数、几何平均数和调和平均数之间的关系
      5. 几何中位数
    2. 离散程度的度量
      1. 资料的范围
      2. 方差和标准差
      3. 四分位数和四分位数间距
      4. 分位数
  6. 资料展示
    1. 条形图
    2. 比较条形图
    3. 直方图
    4. 散点图
    5. 箱线图
    6. 饼图
    7. 比较饼图
    8. 象形图
    9. 折线图
    10. 频率多边形
  7. 概率
    1. 组合学
    2. 伯努利试验
    3. 贝叶斯分析入门
  8. 分布
    1. 离散分布
      1. 均匀分布
      2. 伯努利分布
      3. 二项式分布
      4. 泊松分布
      5. 几何分布
      6. 负二项式分布
      7. 超几何分布
    2. 连续分布
      1. 均匀分布
      2. 指数分布
      3. 伽马分布
      4. 正态分布
      5. 卡方分布
      6. 学生 t 分布
      7. F 分布
      8. 贝塔分布
      9. 威布尔分布
  9. 检验统计假设
    1. 统计检验的目的
    2. 使用的形式化
    3. 不同类型的检验
    4. 单样本 z 检验
    5. 双样本 z 检验
    6. 单样本 t 检验
    7. 双样本 t 检验
    8. 配对样本 t 检验用于比较均值
    9. 单因素方差分析 F 检验
    10. 单样本比例 z 检验
    11. 双样本比例 z 检验
    12. 在 Microsoft Excel 中检验比例 A 是否大于比例 B
    13. 斯皮尔曼等级相关系数
    14. 皮尔逊积矩相关系数
    15. 卡方检验
      1. 卡方检验用于多个比例
      2. 卡方检验用于列联表
    16. 分布的近似
  10. 点估计100% developed  as of 12:07, 28 March 2007 (UTC) (12:07, 28 March 2007 (UTC))
    1. 无偏性
    2. 优良性的度量
    3. 一致最小方差无偏估计
    4. 完备性
    5. 充分性和最小充分性
    6. 辅助性
  11. 练习题
    1. 总结性统计量问题
    2. 资料展示问题
    3. 分布问题
    4. 资料检验问题
  12. 数值方法
    1. 基本线性代数和格拉姆-施密特正交化
    2. 无约束优化
    3. 分位数回归
    4. 统计软件的数值比较
    5. Excel 中的数值
    6. 统计/数值方法/随机数生成
  13. 时间序列分析
  14. 多元资料分析
    1. 主成分分析
    2. 度量资料的因素分析
    3. 序数资料的因素分析
    4. 典型相关分析
    5. 判别分析
  15. 特定数据集的分析
    1. 结核病分析
  16. 附录
    1. 作者
    2. 词汇表
    3. 索引
    4. 链接

编辑此框

伯努利分布提出“单个事件是否会成功?”的问题时,二项式与“在给定次数的试验中,有多少次会成功?”的问题相关联。一些用二项式分布建模的示例问题包括

  • 在十次抛掷中,硬币会落到正面多少次?
  • 在某一天在某家医院出生的儿童中,有多少个是女孩?
  • 在某个教室里,有多少个学生有绿色的眼睛?
  • 在蜂群中,有多少只蚊子在喷洒杀虫剂后会死亡?

伯努利分布和二项式分布之间的关系是直观的:二项式分布是由多个伯努利试验组成的。我们进行 次重复实验,其中成功的概率由参数 给出,并将成功次数加起来。这个成功次数由随机变量 X 表示。X 的值介于 0 和 之间。

当随机变量 X 具有参数为 的二项式分布时,我们将其写为 X ~ Bin(n,p) 或 X ~ B(n,p),概率质量函数由以下方程给出

其中

要复习阶乘 (n!),请返回本维基教科书前面部分的复习课程

一个例子

[编辑 | 编辑源代码]

让我们通过一个简单的二项分布例子来了解它。我们将使用一些非常小的数字,因为阶乘计算起来很困难。我们将随机询问五个人是否相信外星生命的存在。在这个例子中,我们假设我们知道 30% 的人认为这是真的。我们想问的问题是:“有多少人会说他们相信外星生命?”实际上,我们想更具体一点:“**两个人说他们相信外星生命的概率是多少?**”

我们知道将要代入方程的所有值。被问的人数,n=5。任何特定的人回答“是”的概率,p=0.3。(记住,我说 30% 的人相信外星生命存在!)最后,我们想知道正好有 2 个人回答“是”的概率,所以 k=2。这将得到以下方程

因为

以下是 X 所有可能值的概率。您可以通过将上面方程中的 k=2 替换为 0 到 5 之间的任何值来获得这些值。


k 的值 概率 f(k)
0 0.16807
1 0.36015
2 0.30870
3 0.13230
4 0.02835
5 0.00243

从这些结果中我们可以学到什么?首先,我们会发现只有一个人的可能性略高于两个人承认相信外星生命存在。没有人相信它存在有明显的可能性(大约 17%),只有 0.24%(不到千分之二)的可能性是五个人都相信。

方程解释

[编辑 | 编辑源代码]

以上面这个例子为例。让我们逐个考虑五个人。

任何人相信外星生命存在的概率是 30%,即 0.3。因此,任何两个人都相信外星生命存在的概率是 0.3 的平方。类似地,任何人都不相信外星生命存在的概率是 70%,即 0.7,因此,任何三个都不相信外星生命存在的概率是 0.7 的立方。

现在,为了让五个人中有两个人相信外星生命存在,必须满足两个条件:两个人相信外星生命存在,三个人不相信。因此,五个人中有两个人相信外星生命存在的概率似乎是 0.3 的平方(两个相信者)乘以 0.7 的立方(三个不相信者),即 0.03087。

然而,在这样做时,我们只考虑了前两个被选中的人是相信者的情况。我们如何考虑第三个和第五个人是相信者的情况?这也会意味着五个人中总共有两个相信者。

答案在于组合学。考虑到五个人中前两个人相信外星生命存在的概率是 0.03087,我们注意到有 C(5,2),即 10 种方法可以从五个人中选出一组两个人,也就是说,有 10 种方法可以考虑五个人中的两个人是“前两个人”。这就是我们乘以 C(n,k) 的原因。五个人中任意两个人是相信者的概率是 0.03087 的十倍,即 0.3087。

平均值可以这样推导。

现在令 *w=x-1* 和 *m=n-1*。我们可以看到 *m-w=n-x*。现在我们可以将求和重写为

现在我们可以看到,求和是在服从 Bin(m, p) 分布的二项式随机变量的完整概率质量函数上的求和。这等于 1(并且可以使用 二项式定理 轻松验证)。因此,我们有

方差

[edit | edit source]

我们使用以下公式推导出方差

我们已经计算了上面的 E[ *X*],所以现在我们将计算 E[ *X2*],然后回到这个方差公式

我们可以利用我们在推导均值时获得的经验。我们使用相同 *m* 和 *w* 的定义。

第一个和式与我们在均值(上文)中计算的和式形式相同。它加起来等于mp。第二个和式等于 1。

将此结果代入方差表达式,并结合均值(E(X) = np),得到

[编辑 | 编辑源代码]
  1. 25
华夏公益教科书