跳转到内容

统计/分布

来自维基教科书,开放的书籍,开放的世界
(重定向自 统计:分布)

最近一次SAT考试的结果如何?赞比亚21岁以下女性的平均身高是多少?工程学院的大学生与文理学院的大学生在啤酒消费方面有什么区别?

为了回答这些问题,我们将收集数据并将其整理成易于汇总、可视化和讨论的形式。简单地说,数据的收集和聚合导致了分布。分布通常以直方图或表格的形式出现。这样,我们就可以立即“看到”数据并开始我们的科学探究。

例如,如果我们想了解更多关于学生最近SAT考试成绩的信息,我们将从ETS收集SAT分数,以对我们有意义的方式对其进行整理,然后形成这些分数的分布。结果可能是数据表,也可能是图表。无论如何,一旦我们“看到”了数据,我们就可以开始提出更多关于我们数据的有趣研究问题。

我们创建的分布通常与数学生成的分布平行。例如,如果我们获得所有高中生的身高并绘制这些数据,图形可能类似于正态分布,正态分布是通过数学生成的。那么,我们可以简单地使用正态分布来近似所有高中生的身高,而无需费力地收集所有高中生的身高,并且不会牺牲太多精度。

在统计学研究中,我们为了简化和与现实世界的相关性而关注数学分布。理解这些分布将使我们能够更容易地可视化数据并更快地建立模型。然而,它们不能也不应该取代手动数据收集和生成实际数据分布的工作。

多少百分比位于某个范围内?分布显示了多少百分比的数据位于某个范围内。因此,给定一个分布和一组值,我们可以确定数据落在某个范围内的概率。

如果将相同的数据叠加到不同的分布上,可能会得出不同的结论。因此,在所有统计分析中,将数据放到正确的分布上至关重要。

分布

  1. 概率分布
  2. 离散分布
    1. 均匀分布
    2. 伯努利分布
    3. 二项分布
    4. 泊松分布
    5. 几何分布
    6. 负二项分布
    7. 超几何分布
  3. 连续分布
    1. 均匀分布
    2. 指数分布
    3. 伽玛分布
    4. 正态分布
    5. 卡方分布
    6. 学生t分布
    7. F分布
    8. 贝塔分布
    9. 威布尔分布
    10. 耿贝尔分布

一些分布的比较

[编辑 | 编辑源代码]
一些分布
名称 符号 公式 符号 用途 连续/离散 备注
伯努利 f(x)= p
x
2个结果 离散 1次试验
二项式 b(x;n, p)= n次试验
k次成功
p概率
成功的次数
特定概率
非随机
离散
泊松 P(x)=
结果/时间
结果/区域
离散
超几何 h(x;N,n,k) = 从n个样本
N个项目
N个项目中的k个是成功,
N-k个是失败
成功发生X次
与位置无关
是随机的
离散 无放回
多元
超几何
样本量
N个项目
k 个单元格
每个单元格包含 个元素
离散 无放回
正态分布 x
平均值
标准差
: 连续分布 Z 是一个随机变量,具有
卡方分布 是从具有方差 的正态总体中抽取的样本量的方差 随机样本的方差与总体的关系 连续分布
学生t分布 T= 随机样本大小为 n 的平均值 如果不知道 连续分布 v=n-1
F F= 连续分布
华夏公益教科书