最近一次SAT考试的结果如何?赞比亚21岁以下女性的平均身高是多少?工程学院的大学生与文理学院的大学生在啤酒消费方面有什么区别?
为了回答这些问题,我们将收集数据并将其整理成易于汇总、可视化和讨论的形式。简单地说,数据的收集和聚合导致了分布。分布通常以直方图或表格的形式出现。这样,我们就可以立即“看到”数据并开始我们的科学探究。
例如,如果我们想了解更多关于学生最近SAT考试成绩的信息,我们将从ETS收集SAT分数,以对我们有意义的方式对其进行整理,然后形成这些分数的分布。结果可能是数据表,也可能是图表。无论如何,一旦我们“看到”了数据,我们就可以开始提出更多关于我们数据的有趣研究问题。
我们创建的分布通常与数学生成的分布平行。例如,如果我们获得所有高中生的身高并绘制这些数据,图形可能类似于正态分布,正态分布是通过数学生成的。那么,我们可以简单地使用正态分布来近似所有高中生的身高,而无需费力地收集所有高中生的身高,并且不会牺牲太多精度。
在统计学研究中,我们为了简化和与现实世界的相关性而关注数学分布。理解这些分布将使我们能够更容易地可视化数据并更快地建立模型。然而,它们不能也不应该取代手动数据收集和生成实际数据分布的工作。
多少百分比位于某个范围内?分布显示了多少百分比的数据位于某个范围内。因此,给定一个分布和一组值,我们可以确定数据落在某个范围内的概率。
如果将相同的数据叠加到不同的分布上,可能会得出不同的结论。因此,在所有统计分析中,将数据放到正确的分布上至关重要。
分布
- 概率分布
- 离散分布
- 均匀分布
- 伯努利分布
- 二项分布
- 泊松分布
- 几何分布
- 负二项分布
- 超几何分布
- 连续分布
- 均匀分布
- 指数分布
- 伽玛分布
- 正态分布
- 卡方分布
- 学生t分布
- F分布
- 贝塔分布
- 威布尔分布
- 耿贝尔分布
一些分布
名称 |
符号 |
公式 |
符号 |
用途 |
连续/离散 |
备注 |
伯努利 |
f(x)= |
|
p x |
2个结果 |
离散 |
1次试验 |
二项式 |
b(x;n, p)= |
|
n次试验 k次成功 p概率 |
成功的次数 特定概率 非随机 |
离散 |
泊松 |
P(x)= |
|
|
结果/时间 结果/区域 |
离散 |
超几何 |
h(x;N,n,k) = |
|
从n个样本 N个项目 N个项目中的k个是成功, N-k个是失败 |
成功发生X次 与位置无关 是随机的 |
离散 |
无放回 |
多元 超几何 |
|
|
样本量 N个项目 k 个单元格 每个单元格包含 个元素 |
|
离散 |
无放回 |
正态分布 |
|
|
x 平均值 标准差 |
: |
连续分布 |
Z 是一个随机变量,具有
|
卡方分布 |
|
|
是从具有方差 的正态总体中抽取的样本量的方差 |
随机样本的方差与总体的关系 |
连续分布 |
学生t分布 |
T= |
|
随机样本大小为 n 的平均值 |
如果不知道 |
连续分布 |
v=n-1 |
F |
F= |
|
连续分布 |