在许多实验中,样本空间中可能存在太多可能的结果,因此我们可能希望改为使用这些结果的“汇总变量”。例如,假设对 100 个人进行民意调查,询问他们是否同意某项提案。然后,为了完全跟踪这 100 个人的答案,我们可以先用数字表示他们的回答。
- 数字“1”表示“同意”。
- 数字“0”表示“不同意”。
(为了简单起见,我们假设只有这两个答案可用。)然后,为了记录每个人对哪个答案的回答,我们使用一个包含 100 个数字的向量进行记录。例如,
,等等。由于向量中的每个坐标都有两个选择:“0”或“1”,因此样本空间中总共有
个不同的向量(用
表示)!因此,处理样本空间中如此多的结果非常繁琐和复杂
。相反,我们通常只关心有多少人“同意”和“不同意”,而不是每个人对哪个答案的回答,因为“同意”和“不同意”的数量决定了提案是否得到了他们中大多数人的同意,因此抓住了民意调查的本质。
因此,定义一个变量
更方便,它给出样本空间中每个结果的 100 个坐标中的“1”的数量
。然后,
只能取 101 个可能的值:0, 1, 2, ..., 100,这远少于原始样本空间中的结果数。
通过这样做,我们可以将原始实验更改为一个新实验,其中变量
根据一定的概率取 101 个可能的值中的一个。对于这个新实验,样本空间变为
。
在定义变量
(称为 随机变量)的过程中,我们实际上(隐式地)定义了一个函数,其定义域是原始样本空间,值域是
。通常,我们将随机变量的陪域取为所有实数的集合
。也就是说,我们定义了随机变量
,其中
对于每一个
都成立。
为了正式定义随机变量,我们需要可测函数的概念。
通过定义一个从概率空间
到实数空间的随机变量
,我们实际上 诱导 出一个新的概率空间
,其中
- 诱导的样本空间
是随机变量
的 值域:
。
- 诱导的事件空间
是
-代数
。(这里我们遵循之前的惯例:当
可数时,
。)
- 诱导的概率测度
定义为
- 对于每个
。
结果证明,诱导的概率测度满足所有概率公理
例: 证明诱导概率测度
满足所有概率公理,因此是有效的。
证明了这个结果后,可以得出之前讨论的所有概率测度的性质也适用于诱导的概率测度
。因此,我们可以利用概率测度的性质来计算概率
,从而计算出
,对于任意集合
。更一般地,为了计算概率
对于任意
(
不一定属于
),我们注意到
,并且发现
。因此,我们可以通过考虑
来计算
。
示例。 假设我们抛掷一枚公平的硬币两次。那么,样本空间可以用
表示。现在,我们将随机变量
定义为样本点抛掷中获得的正面数(这意味着
将样本空间中的每个样本点映射到该样本点中获得的正面数)。那么,我们有
因此,
。因此,我们有
(样本空间中的四个结果应该是等概率的。)(通常用
代替
,
代替
等等。)
练习。 假设我们抛掷一枚公平的硬币三次,并定义随机变量
为样本点抛掷中获得的正面次数。那么,
。计算概率
对于每个
。因此,计算概率
对于每个
。(提示: 我们可以写
。现在,考虑
。)
有时,即使不可能列出样本空间中的所有样本点,我们也可以确定与随机变量相关的概率。
示例。 考虑关于动机部分中讨论的民意调查的示例。我们将随机变量定义为给出“1”的数量。这里,我们假设样本空间中的每个样本点都是等可能的。证明
对于每个
。
一类非常有用的特殊随机变量是指示随机变量,它是 指示函数 的特例。
示例。 假设我们掷两个不同的骰子,并定义
为掷骰结果的数字之和。 那么,样本空间为
。 这里我们可以看到
的取值范围是
。 计算每个
的
。
解。 注意,在样本空间中,有 1、2、3、4、5、6、5、4、3、2、1 个样本点,分别对应于
。 因此,我们有 
练习。 计算
的概率。 (答案:
)
解答
该概率为 
对于每个随机变量
,都存在一个与之相关的函数,称为 累积分布函数 (cdf) 的 
示例。 考虑之前的一个练习,我们抛一枚公平的硬币三次,随机变量
被定义为样本点中获得的正面次数。我们已经计算出
。因此,随机变量
的累积分布函数由
图表上,累积分布函数是一个阶梯函数,每个
都有一个跳跃,跳跃的大小为
。
累积分布函数中“跳跃”的示意图。
从上面的例子中的累积分布函数可以看出,累积分布函数不一定是连续的。在跳跃点处有几个不连续点。但我们可以注意到,在每个跳跃点,累积分布函数取跳跃的顶端的值,这是根据累积分布函数的定义(所涉及的不等式也包含等式)。简单来说,这表明累积分布函数是右连续的。但是,累积分布函数一般来说不是左连续的。
下面,我们将讨论累积分布函数的三个定义属性。
定理。(累积分布函数的定义属性)函数
是随机变量
的累积分布函数当且仅当
(i)
对于每个实数
。
(ii)
是单调不减的。
(iii)
是右连续的。
有时,我们只对
这样使得
的值感兴趣,这些值更为“重要”。粗略地说,这些值实际上是
的支撑集 的元素,该集合将在下文中定义。
示例. 如果
那么
,因为
,并且该集合是满足此要求的所有集合中最小的集合。
备注.
等等也满足要求,但它们不是最小的集合。
练习。
定义。 (离散随机变量) 如果
是 可数的 (即“可枚举的”或“可列出的”),则随机变量
是一个 离散 随机变量。
练习。
通常,对于离散随机变量,我们感兴趣的是随机变量取特定值的概率。因此,我们有一个函数可以给出每个特定值所对应的概率,即 概率质量函数。
例如。 假设我们掷一个公平的六面骰子一次。 令
为朝上的数字。 那么,
的 pmf 是 
练习。
假设
是一个离散随机变量。将
分割成小的不相交的区间
得出
特别地,每单位的概率可以被解释为
在该区间上的概率密度。(密度越高,分配给该区间的概率就越多)。
取极限,
其中,直观且非严格地,
可以理解为在“无穷小”区间
上的概率,即
,而
可以理解为在这个“无穷小”区间上的概率密度,即
.
这些促使我们给出如下定义。
名称 连续 随机变量来自这样的结果,即这种随机变量的累积分布函数是连续的。
命题。(连续随机变量的累积分布函数的连续性)如果随机变量
是连续的,它的累积分布函数
也是连续的(不仅仅是右连续)。
证明。 由于
(黎曼积分是连续的),累积分布函数是连续的。
练习。
命题。 (用累积分布函数求概率密度函数) 如果连续随机变量的累积分布函数
可微,那么概率密度函数
.
证明。 这是由微积分基本定理得到的:
在没有进一步假设的情况下,概率密度函数 不 是唯一的,即一个随机变量可能有多个概率密度函数,例如,我们可以在其支撑集之外的单个点上将概率密度函数的值设置为一个实数(不会影响概率,因为概率密度函数在单个点的值为零,无论其值如何),这将为一个随机变量创建另一个有效的概率密度函数。 为了解决这个问题,我们通常将
设置为每个
,以使概率密度函数变得唯一,并使计算更方便。
练习。
在阅读了前两节之后,你可能会认为随机变量要么是离散的,要么是连续的。实际上,这是错误的。随机变量可以既不是离散的也不是连续的。这种随机变量的一个例子是本节讨论的 混合 随机变量。
奇异随机变量的一个例子是 康托尔分布函数(有时称为魔鬼的楼梯),如下图所示。当您放大图形时,图形模式会不断重复。
康托尔分布函数