跳转至内容

统计/分布

来自维基教科书,开放世界中的开放书籍

最近的 SAT 考试结果如何?赞比亚 21 岁以下女性的平均身高是多少?工程学院的大学生与文科学院的大学生的啤酒消费量如何比较?

为了回答这些问题,我们会收集数据并将其整理成易于总结、可视化和讨论的形式。从宽泛的角度来看,数据的收集和聚合会形成一个分布。分布通常以直方图或表格的形式出现。这样,我们就可以立即“看到”数据并开始我们的科学探究。

例如,如果我们想更多地了解学生在 SAT 上的最新表现,我们会从 ETS 收集 SAT 成绩,以适合我们的方式进行整理,然后形成这些成绩的分布。结果可能是一个数据表格,也可能是一个图。无论如何,一旦我们“看到”数据,我们就可以开始提出更多关于数据的有趣研究问题。

我们创建的分布通常与数学生成的分布平行。例如,如果我们获得所有高中生的身高并将这些数据绘制成图,该图可能类似于正态分布,正态分布是通过数学生成的。然后,我们可以简单地使用正态分布来近似所有高中生的身高,而无需费力地收集所有高中生的身高,并且不会损失太多精度。

在统计学研究中,我们关注数学分布,为了简单起见,也为了与现实世界相关。理解这些分布将使我们能够更轻松地可视化数据并更快地构建模型。但是,它们不能也不能取代手动数据收集和生成实际数据分布的工作。

某个范围内的百分比是多少?分布显示了数据在某个范围内的百分比。因此,给定一个分布和一组值,我们可以确定数据落在某个范围内的概率。

如果将相同的数据放在不同的分布上,可能会得出不同的结论。因此,在所有统计分析中,将数据放在正确的分布上至关重要。

分布

  1. 概率分布
  2. 离散分布
    1. 均匀分布
    2. 伯努利分布
    3. 二项分布
    4. 泊松分布
    5. 几何分布
    6. 负二项分布
    7. 超几何分布
  3. 连续分布
    1. 均匀分布
    2. 指数分布
    3. 伽马分布
    4. 正态分布
    5. 卡方分布
    6. 学生 t 分布
    7. F 分布
    8. 贝塔分布
    9. 威布尔分布
    10. Gumbel 分布

一些分布的比较

[编辑 | 编辑源代码]
一些分布
名称 符号 公式 符号 用途 连续/离散 笔记
伯努利 f(x)= p
x
2 个结果 离散 1 次试验
二项式 b(x;n, p)= n 次试验
k 次成功
p 概率
成功次数
特定概率
非随机
离散
泊松 P(x)=
结果/时间
结果/区域
离散
超几何 h(x;N,n,k) = n 个样本来自
N 个项目
N 个项目中的 k 个是成功,
N-k 个是失败
成功发生 X 次
与位置无关
是随机的
离散 不放回抽样
多元
超几何
样本量
N 个项目
k 个单元格
每个单元格包含 个元素
离散 不放回抽样
正态分布 x
平均值
标准差
: 连续型 Z 是一个随机变量,具有
卡方分布 是从具有方差为 的正态总体中抽取的样本量的方差 随机样本的方差与总体的关系 连续型
学生 t 分布 T = 是大小为 n 的随机样本的平均值 如果不知道 连续型 v=n-1
F F= 连续型
华夏公益教科书