高中数学扩展

补充章节 — 素数和模运算 — 逻辑

矩阵 — 进一步的模运算 — 数学规划 — 马尔可夫链

引言

概率论是最广泛应用的数学理论之一。它处理不确定性，并教你如何管理它。

请不要误解：我们不是学习预测事物；相反，我们学习利用预测的机会并使它们有用。因此，我们不关心诸如明天下雨的概率是多少？之类的问题，而是假设概率是60%，我们可以进行推论，其中最简单的是明天不下雨的概率是40%。

如上所述，概率是一个百分比，介于0%和100%之间（含）。数学家喜欢将概率表示为比例，即介于0和1之间的数字。因此，明天不下雨的概率为0.4。

应用

你可能会问我们为什么要学习概率。让我们看一个概率应用的快速示例。

考虑以下赌博游戏：抛硬币；如果是正面，我给你1美元；如果是反面，你给我2美元。你会很容易注意到这不是一个公平的游戏 - 机会相同（50%-50%）但奖励不同。即使我们玩的是概率，我们也能做出一些有用的，有时并不那么明显的结论：其中之一是从长远来看我会变得更富有，而你会变得更穷。

另一个现实生活中的例子：我有一天观察到外面乌云密布。所以我就问自己，我该不该带伞？我将对乌云的观察作为我日常决定程序的一部分。因为在过去的经历中，乌云是下雨的预兆，所以我更有可能带伞。

在现实生活中，概率论被经济学家、企业、保险公司、政府等广泛应用于风险分析。更广泛的应用是它作为统计学的基础，而统计学是所有科学研究的主要基础。物理学的两个分支的基础都与概率有关。一个很明显地从它的名字就能识别出来：统计力学。另一个是量子物理学。

为什么是离散概率？

概率有两种类型：离散和连续。连续情况被认为比离散概率更难理解，也更不直观，它需要微积分知识。但我们将在本章稍后部分略微涉及连续情况。

事件和概率

大致来说，事件是我们可以为之分配概率的事物。例如明天下雨的概率为0.6；这里，事件是明天会下雨，分配的概率为0.6。我们可以写成

P(明天会下雨) = 0.6

数学家通常用抽象字母来表示事件。在这种情况下，我们选择A来表示事件明天会下雨，因此上面的表达式可以写成

P(A) = 0.6

另一个例子是一个（六面）公平的骰子每次掷出时将以相等的概率出现1、2、3、4、5或6。设B为下次掷出时出现1的事件。我们写成

P(B) = 1/6

误解

请注意，概率1/6并不意味着它将在最多六次尝试中出现1。它的确切含义将在本章稍后讨论。大致来说，这意味着从长远来看（即骰子被掷出很多次），1的比例将非常接近1/6。

不可能和必然事件

两种类型的事件是特殊的。一种是无法发生的事件（例如，骰子掷出7）；另一种是必然发生的事件（例如，骰子掷出1、2、3、4、5或6中的一个）。不可能事件的概率为0，而必然事件的概率为1。我们写成

P(不可能事件) = 0

P(必然事件) = 1

以上内容加强了关于概率的一个非常重要的原则。即，概率的范围在0到1之间。你永远不会得到2.5的概率！所以记住以下内容

0\leq P(E)\leq 1

对于所有事件 $E$ .

事件的补集

一个最有用的概念是事件的补集。这里我们使用 ${\overline {E}}$ 来表示事件骰子在下次投掷时不会出现 1。通常，在表示事件的变量上加一个横线意味着该事件的相反情况。在上面骰子的例子中

P({\overline {E}})=5/6

这意味着骰子在下次投掷时出现 2、3、4、5 或 6 的概率是 5/6（尽管存在上述误解，即 X/Y 的概率并不意味着它将在最多 Y 次尝试中出现 X 次）。请注意

P({\overline {E}})=1-P(E)

对于任何事件 E。

除了在顶部加一个横线（线）之外，还有其他一些补集的符号（写法）：撇号 (A') 和星号 (A*)。A' 和 A* 都有以下含义： ${\overline {A}}$

组合独立概率

独立概率可以组合起来，得出更复杂事件的概率。我在这里强调独立这个词，因为以下证明如果没有这个要求是行不通的。这个词的精确含义将在本章稍后讨论，我们将展示为什么独立性在本章练习 10 中很重要。

添加概率

当单个事件可以以多种“方式”发生时，概率相加。由于这是一个相当宽泛的概念，以下示例可能会有所帮助。考虑掷一个骰子；如果我们想要计算某个事件的概率，比如掷出一个奇数，我们必须将所有导致这种情况发生的“方式”的概率相加——掷出 1、3 或 5。因此，我们得出以下计算结果

P（掷出奇数）= P（掷出 1）+ P（掷出 3）+ P（掷出 5）= 1/6 + 1/6 + 1/6 = 3/6 = 1/2 = 0.5

请注意，概率的加法通常与使用“或”这个词有关——当我们说某个事件 E 包含事件 X、Y 或 Z（如果任何事件发生，则满足条件）时，我们使用加法来组合它们的概率（如果它们是不相交的，请参见下文）。

一个经验法则是，一个事件的概率与其补集的概率之和必须等于 1。这是有道理的，因为我们直觉上认为，定义良好的事件要么发生，要么不发生。

概率相乘

当事件以多种“阶段”或“步骤”发生时，概率相乘。例如，考虑连续掷两次骰子；连续掷两次 6（两次背靠背）的概率是通过将每个步骤的概率相乘来计算的，因为这两个事件是独立的。直觉上，第一步是第一次掷骰子，第二步是第二次掷骰子。因此，掷两次 6 的最终概率如下

P（掷两次 6）= P（第一次掷出 6）

\times

P（第二次掷出 6）=

{\frac {1}{6}}\times {\frac {1}{6}}

= 1/36

\approx

0.028（或 2.8%）

同样，请注意，概率的乘法通常与使用“和”这个词有关——当我们说某个事件 E 等效于事件 X、Y 和 Z 全部发生时，我们使用乘法来组合它们的概率（如果它们是独立的）。

此外，重要的是要认识到，多个概率的乘积必须小于或等于每个单独的概率，因为概率被限制在 0 到 1 的范围内。这与我们对相对复杂事件通常不太可能发生的直觉认识相一致。

组合加法和乘法

通常需要同时使用这两个运算。再次考虑一个骰子连续掷两次。与前面的情况相反，我们现在将考虑掷出两个数字相加为 3 的事件。在这种情况下，显然涉及两个步骤，因此将使用乘法，但也存在多种导致所考虑事件发生的“方式”，这意味着加法也必须参与其中。骰子在第一次掷出时可以出现 1，第二次掷出时可以出现 2，或者第一次掷出时可以出现 2，第二次掷出时可以出现 1。这导致了以下计算结果

掷出总和为 3 的概率 = 第一次掷出 1 的概率

\times

第二次掷出 2 的概率 + 第一次掷出 2 的概率

\times

第二次掷出 1 的概率 =

{\frac {1}{6}}\times {\frac {1}{6}}

+

{\frac {1}{6}}\times {\frac {1}{6}}

= 1/18

\approx

0.056（或 5.6%）

这只是一个简单的例子，概率的加法和乘法可以用来计算更复杂的概率。

练习

令 A 表示（公平）骰子掷出的点数，令 C 表示在另一个（公平）骰子掷出的点数，令 B 表示从一副牌中随机抽取的一张牌。

1. 掷一个骰子。掷出 3 的概率是多少，即计算 P(A = 3)？

2. 掷一个骰子。掷出 2、3 或 5 的概率是多少，即计算 P(A = 2, 3 或 5)？

3. 从一副 52 张牌中抽取一张方块牌的概率是多少？。有 4 种花色，方块、黑桃、梅花和红心。

4. 掷一个骰子，然后从一副牌中随机抽取一张牌。掷出 4 并且抽到黑桃 A 的概率是多少，即计算 P(A = 4)×P(B = 黑桃 A)。

5. 同时掷两个骰子。掷出 1 和 3 的概率是多少？

6. 分别掷两个骰子。掷出 1 和 3 的概率是多少，无论顺序如何？

7. 计算掷出两个骰子，它们的总和为 7 的概率。

8.（可选）令 C 为第一个骰子上掷出的点数，A 为第二个骰子上掷出的点数。证明 C 等于 A 的概率为 1/6。

9. 令 C 和 A 与练习 8 中相同。C 大于 A 的概率是多少？

10. 加雷斯被告知，在他所在的班级里，50% 的学生踢足球，30% 的学生玩电子游戏，30% 的学生学习数学。所以，如果他从班级里随机选择一名学生，他计算出该学生踢足球、玩电子游戏和学习数学的概率是 50% + 30% + 30% = 1/2 + 3/10 + 3/10 = 11/10。但所有概率都应该在 0 和 1 之间。加雷斯犯了什么错误？

解答

1. P(A = 3) = 1/6

2. P(A = 2) + P(A = 3) + P(A = 5) = 1/6 + 1/6 + 1/6 = 1/2

3. P(B = 方块 A) + ... + P(B = 方块 K) = 13 × 1/52 = 1/4

4. P(A = 4) × P(B = 黑桃 A) = 1/6 × 1/52 = 1/312

5. P(A = 1) × P(C = 3) + P(A = 3) × P(C = 1) = 1/36 + 1/36 = 1/18

6. P(A = 1) × P(C = 3) + P(A = 3) × P(C = 1) = 1/36 + 1/36 = 1/18。这与上面的问题答案相同，因为在这两种情况下，每个骰子的结果都与另一个骰子无关，无论它们是否同时掷出。另一种计算相同答案的方法是考虑第一个骰子可以是 1 或 3，但第二个骰子只能是 1 个数字——与第一个骰子相反，即如果第一个骰子是 1，则为 3，如果第一个骰子是 3，则为 1。这得出了：P(A=1 或 A=3) x P(相反) = 2/6 x 1/6 = 2/36 = 1/18。

7. 以下是可能的组合：1 + 6 = 2 + 5 = 3 + 4 = 7。获得每个组合的概率为 1/18，如练习 6 中所示。有 3 种这样的组合，因此概率为 3 × 1/18 = 1/6。

8. 由于 C 是第一个掷出的骰子，它可以是任何值，P(C) = 1。给定第一个掷出的某个值，P(A) = 1/6。C 和 A 值相同的概率为 1 * 1/6 = 1/6。

9. (C 等于 A) 的概率为 1/6。因此，(C 不等于 A) 的概率为 5/6。其中一半的案例将是 (C 大于 A)。因此，(C 大于 A) 的概率为 5/12。

10. 这三个集合是重叠的，因此，例如，要获得某人属于所有三个集合的概率，您需要相乘（假设它们是独立的），而不是相加。P(F 且 V 且 M) = .5 x .3 x .3 = 0.045。必须记住，踢足球、玩电子游戏、学习数学或做人、做男性、住在亚美尼亚等都是可能的事件/状态。尽管这些事件/状态的可能性和独立性可能存在争议，但任何奇怪组合的概率必须小于 1 的事实必须成立。

随机变量

一个 *随机实验*，例如 *掷骰子* 或 *抛硬币*，是一个产生一些不确定结果的过程。我们还需要随机实验能够轻松地重复。在本节中，我们将开始使用大写字母来表示随机实验的结果。例如，令 *D* 为掷骰子的结果。*D* 可以取值 1、2、3、4、5 或 6，但它是不确定的。我们说 *D* 是一个 *离散随机变量*。现在假设我掷了一个骰子，它出现了 5。我们说 *D* 的 *观察值* 是 5。

随机变量是某个随机实验的结果。它通常用大写字母表示，但它的观察值则不用。例如，令

D_{1},D_{2},...,D_{n}

表示 *n* 次掷骰子的结果，那么我们通常使用

d_{1},d_{2},...,d_{n}

来表示每个 D_i 的观察值。

从这里开始，随机变量可以缩写为“rv”（在其他概率文本中常用的缩写）。

伯努利实验

（本节可选，假设您了解二项式展开。）

抛硬币是伯努利实验的一种更简单、更具体的形式。如果我们抛一枚硬币，我们预计会以相同概率得到正面或反面。伯努利实验比这更灵活，因为两个可能的结果不必具有相同的概率。

在伯努利实验中，您将得到

*成功*，用 1 表示，概率为 *p*（其中 *p* 是 0 和 1 之间的数字）

或

*失败*，用 0 表示，概率为 1 - *p*。

如果随机变量B是伯努利实验的结果，并且B成功结果的概率是p，我们说B来自一个成功概率为p的伯努利分布（其中 $X\sim D$ 表示随机变量X具有概率分布 D）。

B\sim Ber(p)

例如，如果

C\sim Ber(0.65)

那么

P(C = 1) = 0.65

并且

P(C = 0) = 1 - 0.65 = 0.35

二项分布

如果我们重复n次伯努利实验并统计成功次数，我们就得到了一个二项分布。例如

C_{i}\sim Ber(p)

对于 i = 1, 2, ... , n。也就是说，存在n个变量 C₁, C₂, ... , C_n，它们都来自同一个伯努利分布。我们考虑

B=C_{1}+C_{2}+...+C_{n}

，那么B是统计n次试验（实验）中成功次数的随机变量。这样的变量被称为二项变量，我们写成

B\sim Bin(n,p)

示例 1

阿迪亚、莎拉和约翰能力相当。他们在考试中获得 100 分的概率遵循一个伯努利分布，成功概率为 0.9。请问

i) 他们中只有一个获得 100 分的概率是多少？

ii) 他们中两个人获得 100 分的概率是多少？

iii) 三个人都获得 100 分的概率是多少？

iv) 没有人获得 100 分的概率是多少？

解答

我们正在处理一个二项变量，我们将它称为B。并且

B\sim Bin(3,0.9)

i) 阿迪亚（以及莎拉和约翰）获得 100 分的概率为 0.9 或 90%。我们可以写成

P(S=100)=0.9

... 其中 S 代表他们中任何一个人的分数。他们中任何一个人获得 100 分（成功）而另外两个人获得低于 100 分（失败）的概率为

0.9\times 0.1\times 0.1=0.009

但是，获得 100 分的候选人有 3 个，所以

P(B=1)=3\times 0.009=0.027

ii) 我们要计算

P(B=2)

概率为

0.9\times 0.9\times 0.1=0.081

但是，获得 100 分的候选人组合有 ${3 \choose 2}$ ^[1] 种，所以

P(B=2)={3 \choose 2}\times 0.081=0.243

iii) 计算

P(B=3)=0.9\times 0.9\times 0.9=0.729

iv) "没有人获得100分"的概率是获得0次成功，所以

P(B=0)=0.1\times 0.1\times 0.1=0.001

上面的例子强烈暗示了二项分布与二项式展开之间的联系。以下关于二项分布的结果没有给出证明；鼓励读者检查其正确性。

如果

B\sim Bin(n,p)

那么

P(B=k)={n \choose k}p^{k}(1-p)^{n-k}

这是 (p + q)ⁿ 的二项式展开的第 k 项，其中 q = 1 - p。

事件

在前面的章节中，我们稍微滥用了“事件”这个词。事件应该被认为是某个随机变量的可能结果的集合（集合），因此我们可以为它分配一个概率。

让我们先介绍一些符号。令 A 和 B 为两个事件，我们定义

\,A\cap B

为 A 和 B 事件。事件 A 和 B 的概率计算如下

\,P(A\cap B)=P(A)\times P(B)

我们也定义

A\cup B

为 A 或 B 事件。正如在上面的练习 10 中看到的那样，

\,P(A\cup B)\neq P(A)+P(B)

通常情况下。事实上，

\,1\geq P(A\cup B)\leq P(A)+P(B)

始终成立。

让我们看一些例子。令 A 为掷骰子时获得小于或等于 4 的数字的事件，令 B 为获得奇数的事件。现在

P(A) = 2/3

并且

P(B) = 1/2

但 A 或 B 的概率不等于概率之和

P(A\cup B)\neq P(A)+P(B)={\frac {1}{2}}+{\frac {2}{3}}={\frac {7}{6}}

因为 7/6 大于 1。

不难看出，掷出 1 或 3 的事件包含在 A 和 B 中。所以如果我们简单地添加 P(A) 和 P(B)，则某些事件的概率被添加了两次。

下面的维恩图应该可以更好地说明情况，

将蓝色正方形视为 B 的概率，将黄色正方形视为 A 的概率。这两个概率重叠，重叠的空间是 A 和 B 的概率。所以 A 或 B 的概率应该是

P(A\cup B)=P(A)+P(B)-P(A\cap B)

上面的公式是容斥原理的简单方法。

如果对于事件 A 和 B，我们有

P(A\cap B)=0

我们说 A 和 B 是不相交的。这意味着这两个集合没有共同的结果（元素）。如果两个事件是不相交的，则下面的维恩图代表它们

维恩图

传统上，维恩图用于以图形方式说明集合。集合仅仅是事物的集合——例如，{1, 2, 3} 是一个包含 1、2 和 3 的集合。维恩图通常是圆形的。通常很难为超过 3 个相交集合绘制维恩图。例如，以下是一个显示四个相交集合的维恩图

期望

随机变量的期望可以粗略地认为是某个可重复随机实验结果的长期平均值，其中 长期平均值 意味着我们多次执行基础实验并对结果进行平均。例如，令 D 如上；D 的观察值（1、2 ... 或 6）发生的可能性相同。因此，如果您要掷骰子很多次，您会期望每个数字出现的大致次数相同。因此，期望值为

{\frac {1+2+3+4+5+6}{6}}=3.5

我们将D的期望记为E(D)，所以

E(D)=3.5

我们现在应该正确地定义期望。

考虑一个随机变量R，假设它可以取的值为r₁, r₂, r₃, ... , r_n。我们定义期望为

E(R)=r_{1}P(R=r_{1})+r_{2}P(R=r_{2})+...+r_{n}P(R=r_{n})

思考一下：考虑到期望是结果的长期平均值，你能解释为什么E(R)是如此定义的吗？

例子 1 在一个公平的抛硬币游戏中，用1表示抛出正面，用0表示抛出反面。同一个硬币被抛了8次。令C为一个表示8次抛掷中正面数量的随机变量。C的期望是什么，即计算E(C)？

答：E(C)=∑[r x P(C=r)]，其中0<=r<=8

${\begin{aligned}P(r)&={\binom {8}{r}}\cdot \left({\frac {1}{2}}\right)^{r}\cdot \left(1-{\frac {1}{2}}\right)^{8-r}\\&={\binom {8}{r}}\cdot \left({\frac {1}{2}}\right)^{8}\\E(C)&=0\cdot {\binom {8}{0}}\cdot \left({\frac {1}{2}}\right)^{8}+1\cdot {\binom {8}{1}}\cdot \left({\frac {1}{2}}\right)^{8}+\dots +8\cdot {\binom {8}{8}}\cdot \left({\frac {1}{2}}\right)^{8}\\&=(0+8+56+168+280+280+168+56+8)\cdot \left({\frac {1}{2}}\right)^{8}\\&=1024\cdot {\frac {1}{256}}\\&=4\\\end{aligned}}$

所以期望值为4

面积作为概率

均匀分布...

顺序统计

估计U[0, x]中的x。...

均匀分布的加法

添加U[0,1]并介绍CLT。

...CLT - 中心极限定理：在任何样本分布集中，随着所取样本数量的增加，样本分布的总体平均分布将趋近于正态分布.

CLT在统计推断中很重要，在统计推断中，从整个总体中抽取小样本，以对整个总体得出结论。

反馈

你怎么看？ 太简单还是太难？信息太多还是不够？我们如何改进？请在讨论标签中留下评论让我们知道。更好的是，自己编辑它，让它变得更好。

↑ 组合符号

[1] 组合符号

[1]