统计学/数据展示/直方图
观察数据的分布或特定值在预设的特定大小的区间内出现的频率通常很有用。这些区间的选择取决于您,但请记住,它们应该被选择以阐明您的数据,而不是混淆它。
直方图类似于条形图。但是直方图用于连续数据(而不是离散或定性数据)。直方图的定义属性是
- 每个条形的面积与其频率成正比。
如果每个区间宽度相等,那么可以通过在纵轴上绘制频率来轻松实现。但是直方图也可以绘制在区间大小不相等的区域中,在这种情况下,可以绘制频率密度。
要生成具有相等区间大小的直方图
- 选择最小值、最大值和区间大小。这三个都是由您决定的。在上面使用的直方图数据中,最小值为 1,最大值为 110,区间大小为 10。
- 计算您的区间以及每个区间内有多少个值。对于直方图数据,区间为
- 1 ≤ x < 10,16 个值。
- 10 ≤ x < 20,4 个值。
- 20 ≤ x < 30,4 个值。
- 30 ≤ x < 40,2 个值。
- 40 ≤ x < 50,2 个值。
- 50 ≤ x < 60,1 个值。
- 60 ≤ x < 70,0 个值。
- 70 ≤ x < 80,0 个值。
- 80 ≤ x < 90,0 个值。
- 90 ≤ x < 100,0 个值。
- 100 ≤ x < 110,0 个值。
- 110 ≤ x < 120,1 个值。
- 绘制您在上面计算出的计数。使用标准的条形图绘制。
假设您是一位狂热的桌面游戏玩家,喜欢玩《机甲战士》,这是一款基于 D6(六面骰子)的游戏。您刚买了一个新的六面骰子,想看看它是否偏向(加上您掷骰子时的偏向)。
因此,在我们查看掷骰子的结果之前,让我们看看我们预期会得到什么。首先,如果骰子没有偏向,这意味着掷出六的概率与掷出 1 的概率完全相同——不会有任何偏向特定的值。使用算术平均值的标准方程发现,μ = 3.5。我们还预计直方图在整个过程中大致均匀——尽管它几乎不可能完美,因为我们正在处理随机因素。
以下是您收集的数字
1 | 5 | 6 | 4 | 1 | 3 | 5 | 5 | 6 | 4 | 1 | 5 | 6 | 6 | 4 | 5 | 1 | 4 | 3 | 6 |
1 | 3 | 6 | 4 | 2 | 4 | 1 | 6 | 4 | 2 | 2 | 4 | 3 | 4 | 1 | 1 | 6 | 3 | 5 | 5 |
4 | 3 | 5 | 3 | 4 | 2 | 2 | 5 | 6 | 5 | 4 | 3 | 5 | 3 | 3 | 1 | 5 | 4 | 4 | 5 |
1 | 2 | 5 | 1 | 6 | 5 | 4 | 3 | 2 | 4 | 2 | 1 | 3 | 3 | 3 | 4 | 6 | 1 | 1 | 3 |
6 | 6 | 1 | 4 | 6 | 6 | 6 | 5 | 3 | 1 | 5 | 6 | 3 | 4 | 5 | 5 | 5 | 2 | 4 | 4 |
参考我们对无偏骰子的期望,这非常接近我们预期的结果。因此,让我们创建一个直方图来查看分布中是否存在任何重大差异。
将骰子掷出的结果划分为区间唯一合乎逻辑的方法是根据骰子面上的点数
1 | 2 | 3 | 4 | 5 | 6 |
16 | 9 | 17 | 21 | 20 | 17 |
如果我们擅长可视化信息,我们可以简单地使用表格,例如上面的表格,来查看可能发生了什么。但是,通常情况下,拥有一个可视化表示非常有用。随着我们想要显示的数据量和多样性的增加,对图形而不是简单表格的需求也随之增加。
查看上面的图形,我们可以清楚地看到,1、3 和 6 面几乎完全符合我们期望的随机结果。4 和 5 面略高,但也不算太多,而 2 面却低很多。这可能是随机造成的结果,也可能代表数据中的实际异常,需要我们注意并牢记。我们将在后面的章节中再次讨论这个问题。
绘制直方图的另一种方法是计算频率密度。
- 频率密度
- 频率密度是频率除以组宽。
在直方图中使用频率密度的优势在于,无论是否有明显的标准宽度可以使用,都不重要。对于所有组,您都会计算所有组的频率除以组宽。
外部链接
返回统计学。