跳转到内容

统计学/分布/二项式

来自维基教科书,自由的教科书,共建自由的世界

统计学


  1. 简介
    1. 什么是统计学?
    2. 现代统计学中的科目
    3. 为什么我应该学习统计学? 0% developed
    4. 我需要知道些什么才能学习统计学?
  2. 不同类型的资料
    1. 原始资料和次级资料
    2. 定量资料和定性资料
  3. 资料收集方法
    1. 实验
    2. 抽样调查
    3. 观察研究
  4. 资料分析
    1. 资料清理
    2. 移动平均
  5. 汇总统计
    1. 集中趋势的度量
      1. 平均数、中位数和众数
      2. 几何平均数
      3. 调和平均数
      4. 算术平均数、几何平均数和调和平均数之间的关系
      5. 几何中位数
    2. 离散程度的度量
      1. 资料的范围
      2. 方差和标准差
      3. 四分位数和四分位数范围
      4. 分位数
  6. 展示资料
    1. 条形图
    2. 比较条形图
    3. 直方图
    4. 散点图
    5. 箱线图
    6. 饼图
    7. 比较饼图
    8. 象形图
    9. 折线图
    10. 频率多边形
  7. 概率
    1. 组合学
    2. 伯努利试验
    3. 贝叶斯分析入门
  8. 分布
    1. 离散分布
      1. 均匀分布
      2. 伯努利分布
      3. 二项式分布
      4. 泊松分布
      5. 几何分布
      6. 负二项式分布
      7. 超几何分布
    2. 连续分布
      1. 均匀分布
      2. 指数分布
      3. 伽马分布
      4. 正态分布
      5. 卡方分布
      6. 学生t分布
      7. F 分布
      8. 贝塔分布
      9. 威布尔分布
  9. 检验统计假设
    1. 统计检验的目的
    2. 使用的形式主义
    3. 不同类型的检验
    4. 单个均值的z检验
    5. 两个均值的z检验
    6. 单个均值的t检验
    7. 两个均值的t检验
    8. 配对t检验比较均值
    9. 单因素方差分析F检验
    10. 单个比例的z检验
    11. 两个比例的z检验
    12. 在 Microsoft Excel 中检验比例 A 是否大于比例 B
    13. 斯皮尔曼秩相关系数
    14. 皮尔逊积矩相关系数
    15. 卡方检验
      1. 多个比例的卡方检验
      2. 列联表的卡方检验
    16. 分布的近似
  10. 点估计100% developed  as of 12:07, 28 March 2007 (UTC) (12:07, 28 March 2007 (UTC))
    1. 无偏性
    2. 优良性的度量
    3. UMVUE
    4. 完备性
    5. 充分性和最小充分性
    6. 辅助性
  11. 练习题
    1. 汇总统计练习题
    2. 资料展示练习题
    3. 分布练习题
    4. 资料检验练习题
  12. 数值方法
    1. 基础线性代数和格拉姆-施密特正交化
    2. 无约束优化
    3. 分位数回归
    4. 统计软件的数值比较
    5. Excel 中的数值
    6. 统计学/数值方法/随机数生成
  13. 时间序列分析
  14. 多元资料分析
    1. 主成分分析
    2. 度量资料的因素分析
    3. 序数资料的因素分析
    4. 典型相关分析
    5. 判别分析
  15. 特定数据集的分析
    1. 结核病分析
  16. 附录
    1. 作者
    2. 词汇表
    3. 索引
    4. 链接

编辑此框

伯努利分布 询问“这个单一事件会成功吗?”这个问题时,二项式与“在给定的试验次数中,会有多少次成功?”这个问题相关联。一些用二项式分布建模的示例问题是

  • 在十次抛掷中,这枚硬币会有多少次正面朝上?
  • 在特定医院特定日期出生的儿童中,有多少人是女孩?
  • 在特定教室中,有多少学生有绿色的眼睛?
  • 在一个蜂群中,有多少只蚊子在喷洒杀虫剂后会死亡?

伯努利分布和二项式分布之间的关系是直观的:二项式分布是由多个伯努利试验组成的。我们进行 次重复实验,其中成功的概率由参数 给出,并将成功的次数加起来。这个成功的次数由随机变量 X 表示。X 的值介于 0 和 之间。

当一个随机变量 X 服从参数为 的二项式分布时,我们将其写为 X ~ Bin(n,p) 或 X ~ B(n,p),其概率质量函数由以下公式给出

其中

要回顾阶乘 (n!),请返回到本维基教科书前面部分的 复习课程

一个例子

[编辑 | 编辑源代码]

让我们通过一个二项分布的简单示例来进行说明。 我们将使用一些非常小的数字,因为阶乘可能很难计算。 我们将询问五个随机的人,他们是否相信其他星球上存在生命。 在这个例子中,我们假设我们知道 30% 的人认为这是真的。 我们想问这个问题:“有多少人会说他们相信外星生命?” 事实上,我们想比这更具体:**“恰好有 2 个人说他们相信外星生命的概率是多少?”**

我们知道需要代入方程的所有值。 被问的人数 n=5。 任何特定的人回答“是”的概率 p=0.3。 (请记住,我说 30% 的人相信其他星球上存在生命!)最后,我们询问恰好有 2 个人回答“是”的概率,所以 k=2。 这将得出以下方程

因为

以下是 X 的所有可能值的概率。 你可以通过将上述方程中的 k=2 替换为 0 到 5 之间的全部值来获得这些值。


k 的值 概率 f(k)
0 0.16807
1 0.36015
2 0.30870
3 0.13230
4 0.02835
5 0.00243

我们能从这些结果中了解到什么? 首先,我们会看到只有一个人承认相信其他星球上存在生命的可能性略大一些。 没有人相信的可能性很大(约 17%),只有 0.24%(每千人略高于 2 人)的可能性是所有五个人都会是信徒。

方程的解释

[edit | edit source]

以上面的例子为例。 让我们逐个考虑这五个人。

任何一个人相信外星生命存在的概率是 30%,也就是 0.3。 所以任何两个人都相信外星生命存在的概率是 0.3 的平方。 同样,任何一个人不相信外星生命存在的概率是 70%,也就是 0.7,所以任何三个人都不相信外星生命存在的概率是 0.7 的立方。

现在,对于五个人中有两个人相信外星生命,必须满足两个条件:两个人相信外星生命,而三个人不相信。 因此,五个人中有两个人相信外星生命存在的概率似乎是 0.3 的平方(两个信徒)乘以 0.7 的立方(三个不信徒),也就是 0.03087。

然而,在这样做时,我们只考虑了第一个被选中的人是信徒的情况。 我们如何考虑第三和第五个人是信徒的情况,这也意味着五个人中有两个信徒?

答案在于组合学。 考虑到五个人中前两个人相信外星生命存在的概率是 0.03087,我们注意到从五个人中选出两个人集的方法是 C(5,2),也就是 10,即,有十种方法可以考虑五个人中的两个人是“前两个人”。 这就是我们为什么乘以 C(n,k) 的原因。 五个人中任何两个人都是信徒的概率是十倍于 0.03087,也就是 0.3087。

均值可以推导出如下。

现在令w=x-1m=n-1。我们可以看到m-w=n-x。现在我们可以将求和重写为

现在我们可以看到,该求和是对二项式随机变量分布为Bin(m, p)的完整 pmf 的求和。它等于 1(并且可以使用二项式定理轻松验证)。因此,我们有

方差

[edit | edit source]

我们使用以下公式推导出方差

我们已经计算了上面的 E[X],所以现在我们将计算 E[X2],然后回到这个方差公式

我们可以使用我们在上面推导出均值时获得的经验。我们使用mw 的相同定义。

第一个求和的形式与我们在均值(上面)中计算的相同。它加起来为mp。第二个求和为1。

将此结果代入方差表达式,以及均值(E(X) = np),我们得到

[编辑 | 编辑源代码]
  1. 25
华夏公益教科书