跳转到内容

IB 数学 SL/统计与概率

来自维基教科书,开放世界开放书籍

组合事件

[编辑 | 编辑源代码]

同时发生时,即为组合事件。请注意,当 A 或 B 发生时,A 和 B 也同时发生。这意味着

它还意味着 A 发生,**或** B 发生,**或** A 和 B 都发生。

互斥事件

[编辑 | 编辑源代码]
文件:Venn diagram2.gif
维恩图中的互斥事件

当两个事件被称为互斥事件时,这两个事件不能同时发生。例如,一次抛硬币的结果不可能是正面和反面。在维恩图中,互斥事件不相互交叉,没有重叠区域。换句话说: 。因此

.

因为这两个事件的交集等于 0。

穷举事件

[编辑 | 编辑源代码]

当集合 A 和集合 B 包含**所有可能的事件**时,称为穷举事件,无论在集合 A 或集合 B 中。这意味着 ,其中 *U* 是所有事件的集合,或者换句话说

.

对于穷举事件,A 的补集和 A 加起来等于 1

.

条件概率

[编辑 | 编辑源代码]

条件概率是指在第二个事件一定会发生的情况下,第一个事件发生的概率。请注意,对于互斥事件,条件概率总是等于零。

条件概率可以通过首先找到两个事件都发生的概率来计算。(对于独立事件,这只是指 P(A)*P(B)。)然后将结果除以给定事件的概率。

独立性

[编辑 | 编辑源代码]

如果两个事件满足以下条件,则称这两个事件相互独立。

也就是说

统计学

[编辑 | 编辑源代码]

数据的图表表示

[编辑 | 编辑源代码]

众数、中位数和平均数

[编辑 | 编辑源代码]

众数 - 数据集中出现频率最高的数值。

例如:给定数字集:1,3,4,4,5,7,8,10,13,13,13

数字 13 出现频率最高,因此众数为 13

中位数 - 数据集中间位置的数值。要找到中位数,请按顺序排列数字,并确定中间位置的数字。

例如:给定数字集:1,3,4,4,5,7,8,10,13,13,13

数字 7 位于数据集中间位置,因此中位数为 7

要了解中位数位于哪个位置

1/2(n+1)=

n 表示数据点的数量;结果是中位数的索引。然后查看该位置的数字,即中位数。如果数据点的数量为偶数,则中位数位于两个最“中心”数字之间。例如,在一个包含八个数字的集合中,如果第四个和第五个数字为 6、7,则中位数位于 6 和 7 之间。

平均数 - 数据集的平均值。要找到平均数,将数据集中所有数字加在一起,然后将此总和除以集合中的数字数量。

例如:给定数字集:1,3,4,4,5,7,8,10,13,13,13 <-- 数据集中有 11 个数字将所有数字加在一起:1+3+4+4+5+7+8+10+13+13+13= 79 将总和 (79) 除以数据集中数字的数量 (11) = 79/11 = 7.18

因此,数据集的平均数,即平均数,为 7.18

离散度量

[编辑 | 编辑源代码]

离散度量,也称为离散度量,衡量数据的分散程度。它们分为两种类型:不受异常值影响的参数和受异常值影响的参数。

不受异常值影响:标准差,标准差将衡量统计数据中落入某个范围或标准差内的百分比。据说 68% 的所有数据都落在平均数的一个标准差范围内。

                      interquartile range,


受异常值影响:范围,例如,在公司薪资中,最高管理人员的年薪可能高达 400,000 美元,而工厂工人的年薪仅为 10,000 美元,因此,薪资范围为 390,000 美元。

短语“不受异常值影响”表示该参数忽略了数据集的极端值和异常值。

累积频率

[编辑 | 编辑源代码]

直方图

[编辑 | 编辑源代码]

在统计学中,直方图是以条形图形式显示的表格频率的图形显示。它显示了有多少案例落入多个类别中的每一个:它是一种数据分箱形式。类别通常指定为某个变量的非重叠区间。类别(条形)必须相邻。区间(或带、或箱)通常大小相同。

直方图用于绘制数据密度,通常用于密度估计:估计基础变量的概率密度函数。用于概率密度的直方图的总面积始终归一化为 1。如果 x 轴上的区间长度都为 1,则直方图与相对频率图相同。

直方图的替代方法是核密度估计,它使用核来平滑样本。这将构造一个平滑的概率密度函数,它通常能更准确地反映基础变量。

直方图是七个基本质量控制工具之一,其他工具包括帕累托图、检验单、控制图、因果图、流程图和散点图。

随机变量

[编辑 | 编辑源代码]

期望值

[编辑 | 编辑源代码]

随机变量 x 发生的期望值由以下公式给出

其中 是事件 发生的概率。例如,抛硬币两次时出现正面次数的期望值为

出现一次正面的概率为 1/2,因为有两个结果包含一个正面(HT 和 TH)。当一个游戏被称为公平时,这意味着期望值为 0。E(X)= 0

二项分布

[编辑 | 编辑源代码]

一个分布是二项分布当且仅当它符合以下四个参数:1)结果是独立的 2)只有两种结果,成功或失败 3)成功的概率是恒定的 4)试验次数是固定的。例如,有一个装有 10 个弹珠的袋子,其中 5 个是红色的,3 个是蓝色的,2 个是绿色的。如果从袋中抽取 5 个弹珠(有放回),那么抽到正好 2 个红色弹珠的概率是多少?这是二项分布,因为结果是独立的,要么是红色要么不是红色,成功的概率是 0.5,试验次数是 5。为了解决二项分布问题,可以使用以下公式:nCk(p)k(1-p)n-k,其中 n 是试验次数,k 是成功的次数,p 是成功的概率。对于之前的问题,公式为:5C2(.5)2(1-.5)5-2,结果为 10*.25*.125 = .3125,这意味着抽到正好 2 个红色的概率是 31.25%。

正态分布

[编辑 | 编辑源代码]

正态分布是一个连续分布,由两个参数定义:均值 和标准差 。由于正态曲线的对称性,均值等于众数和中位数。

标准正态分布

[编辑 | 编辑源代码]
标准正态分布曲线示例

标准正态分布的均值为 0,标准差为 1。曲线下的面积(概率)为 1。


为了找到正态曲线下的面积,学生可以使用 TI 计算器中的 normalcdf() 函数。语法为

normalcdf (下限,上限,均值,标准差)

其他正态分布的概率

[编辑 | 编辑源代码]

概率质量函数

[编辑 | 编辑源代码]

一般来说,如果随机变量 K 遵循参数为 np 的二项分布,我们写成 K ~ B(np)。在 n 次试验中获得正好 k 次成功的概率由 概率质量函数 给出

对于 k = 0, 1, 2, ..., n 以及

二项式系数(因此得名)"n 选择 k",也记作 C(nk),  nCknCk。公式可以理解如下:我们想要 k 次成功(pk)和 n − k 次失败 (1 − p)n − k。但是,k 次成功可以在 n 次试验中的任何位置发生,并且在 n 次试验中分配 k 次成功的不同方式有 C(nk) 种。

在创建二项分布概率的参考表时,通常将表填充到 n/2 的值。这是因为对于 k > n/2,概率可以通过其补集计算,如下所示

因此,必须查看不同的 k 和不同的 p(二项分布一般来说是不对称的)。但是,它的行为不是任意的。总是存在一个整数 m 满足

作为 k 的函数,表达式 ƒ(knp) 在 k < m 时单调递增,在 k > m 时单调递减,只有一个例外,即 (n + 1)p 是整数。在这种情况下,对于 m = (n + 1)pm − 1 有两个最大值。m 被称为伯努利试验中最可能的(最有可能的)结果。请注意,它发生的概率可能很小。

华夏公益教科书