一本 Wikibook,展示了如何在单维和多维情况下变换连续随机变量的概率密度。换句话说,它展示了如何计算连续随机变量函数的分布。
这本 Wikibook 展示了如何在单维和多维情况下变换 连续随机变量 的概率密度。第一节阐述了通用问题并提供了解决方案。然而,这个通用解决方案通常很难评估,并且在特殊情况下可以进行简化,例如,如果随机向量是一维的,或者如果随机向量的分量是独立的。随后章节推导了这些特殊情况的公式。这本 Wikibook 还旨在概述该领域中使用的不同方程式,并展示它们之间的联系。
设
为具有 随机向量 的 概率密度函数,pdf,
,并设
为一个 (Borel 可测) 函数。我们正在寻找
的概率密度函数,即
.
首先,我们需要记住 累积分布函数,cdf,
的定义:它衡量了 Y 的每个分量都小于 y 的对应分量的概率。我们将使用简写符号,并说两个向量“小于或等于”(≤)如果它们的每个分量都满足条件。
-

|
|
|
然后通过对
求导可得所需的密度
。
-

|
|
|
因此,一般解可以表示为n维积分的m阶导数
-
ℝn → ℝm 映射
|
|
|
|
以下各部分将提供特殊情况下的简化方法。
如果 n=1 且 m=1,X 是一个连续分布的随机变量,其密度为
,并且
是一个可测博雷尔函数。那么 Y := f(X) 也是连续分布的,我们寻找密度
。
在下文中,f 始终至少可微。
首先要注意,可能存在 f 永远无法达到的值,例如,如果 f(x) = x2 则 y<0。对于所有这些 y,必然有
。

根据公式 1 和 2,我们可以得到
-

|
|
|
现在我们将以不同的方式重新排列这个表达式。
首先,我们将自己限制在导数始终不为 0 的 f(因此,f 是一个 微分同胚)。然后,逆映射
存在,并且 f 或者单调递增或者单调递减。
如果 f 单调递增,则
并且
。因此

如果 f 单调递减,则
并且
。因此

这可以总结为
-

|
|
|
如果现在导数
在某些位置
为零,
,那么我们将 f 的定义空间使用这些位置分割成
个不相交的区间
。公式 5 对定义空间限制在这些区间
上的函数
成立。我们有
-

|
|
|
按照约定,0 个加数的总和为 0,并使用反函数定理,可以将此写成更紧凑的形式(读作:所有满足 f(x)=y 的 x 的总和)
-
ℝ → ℝ 映射
|
|
|
|
在本节中,我们将考虑一个不同的推导。
公式 4 中的概率是概率密度的积分。同样在 f 单调递增的情况下,我们有

现在我们将右侧积分中的 u 替换为 f(x),即
以及
。 积分的上下限则分别为 -∞ 到 y, 且根据 “
” 的法则, 我们得到
, 这由反函数定理得出。 因此

对等式两边关于 y 求导,我们得到

遵循与上一节相同的论证,我们再次可以推导出方程式 6。
这个规则经常误导物理学书籍呈现以下观点,该观点可能更容易记忆,但并不严谨: 如果你将概率密度
乘以“无穷小长度”
, 那么你将得到 X 位于区间 [x, x+dx] 内的概率
。 将坐标改为 y, 通过代换, 你将得到

在本节中,我们将考虑另一种不同的推导方法,这种方法在物理学中经常使用。
我们再次从公式 4 开始,将其写成积分形式

最后一个表达式的直观解释是:对所有可能的 x 值进行积分,并使用 delta “函数” 来选择所有 y = f(x) 的位置。此公式通常出现在物理学书籍中,可能写成期望值的形式,
-
ℝ → ℝ 映射(使用狄拉克德尔塔分布)
|
|
|
|
我们可以看到,使用以下恒等式,此公式等效于公式 6

- 让我们考虑以下具体示例:令
且
。我们选择使用公式 6(公式 5 和 7 会得到相同的结果)。我们计算导数
并找到所有使 f(x)=y 的 x,它们是
和
,如果 y>0,否则没有。对于 y>0,我们有
![{\displaystyle \varrho _{Y}(y)=\sum \limits _{x,f(x)=y}{\frac {\varrho _{X}(x)}{\left|f^{\prime }(x)\right|}}={\frac {\varrho _{X}(-{\sqrt {y}})}{\left|f^{\prime }(-{\sqrt {y}})\right|}}+{\frac {\varrho _{X}(+{\sqrt {y}})}{\left|f^{\prime }(+{\sqrt {y}})\right|}}={\frac {\exp[-0.5y]}{{\sqrt {2\pi }}\,2{\sqrt {y}}}}+{\frac {\exp[-0.5y]}{{\sqrt {2\pi }}\,2{\sqrt {y}}}}={\frac {\exp[-0.5y]}{\sqrt {2\pi \,y}}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/49781792da05c06cd3a7a245b688fed35c363e58)
- 由于 f 从未达到负值,因此当 y<0 时,该和仍然为 0,最后我们得到
![{\displaystyle \varrho _{Y}(y)={\begin{cases}0,&{\text{if }}y\leq 0\\{\frac {\exp[-0.5y]}{\sqrt {2\pi \,y}}},&{\text{if }}y>0\end{cases}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/08feae4e4476c470ba4e83cf5cf5b821dcf9ed20)
- 以下图形说明了这个示例
随机数根据标准正态分布 X ~ N(0,1) 生成。它们显示在图 (a) 的 x 轴上。其中许多都在 0 附近。这些数字中的每一个都根据 y = x² 映射,图中用灰色箭头显示了两个示例点。对于 X 的许多生成实现,y 轴上的直方图将收敛到 (c) 中所示的所需概率密度函数 ρY。为了分析地推导出这个函数,我们首先观察到,为了使 Y 在任何 v 和 v+Δv 之间,X 必须在
和
之间,或者,在
和
之间。这些区间在图 (b) 和 (c) 中标记。因为概率等于概率密度函数下的面积,所以我们可以根据条件确定 ρY,即 (c) 中灰色阴影区域必须等于 (b) 中面积的总和。面积使用积分计算,并且在求极限
时很有用,以便获得 (c) 中记录的公式。
- 另一个例子是 逆变换法。假设计算机生成在 [0, 1] 上具有均匀分布的随机数 X,即

- 如果我们想要根据具有 pdf
的分布获得随机数,我们选择 f 作为 Z 的 cdf 的逆函数,即
。现在我们可以证明 Y 将具有与所需的 Z 相同的分布,
,方法是使用公式 5 以及
的事实。
.
- 以下示例图示了该方法
从 0 到 1 之间的均匀分布生成随机数 yi,即 Y ~ U(0, 1)。它们被描绘为 y 轴上的彩色点。每个点都根据 x=F-1(y) 进行映射,对于两个示例点,映射过程用灰色箭头表示。在这个示例中,我们使用的是指数分布。因此,对于 x ≥ 0,概率密度为
,累积分布函数为
。因此,
。我们可以看到,使用这种方法,许多点最终会落在靠近 0 的位置,只有少数点最终会落在较高的 x 值位置 - 这正是指数分布的预期结果。
现在我们将研究当已知密度为
的随机向量 X 映射到(标量)随机变量 Y 时的情况,并计算新的密度
。
根据 3,我们发现
-

|
|
|
直接计算这个等式有时是最简单的方法,例如,如果积分表示的面积或体积有已知公式。否则需要求解一个参数依赖的多重积分。
如果随机向量
的分量是相互独立的,那么概率密度就会分解

在这种情况下,delta 函数可以提供一个快速评估工具。将积分边界替换为积分内部的阶跃函数,
,并利用阶跃函数的导数是 delta 函数这一事实。
-

|
|
|
如果想要避免使用 delta 函数进行计算,当然也可以评估最里面的积分
,前提是这些分量是独立的。

- 设
,其中独立的连续随机变量 X1 和 X2。根据方程 9,我们有

- 如果使用求和公式,则求和将遍历所有满足
的 x1,即 x1 = y - x2。
- 导数为
,因此我们也得到方程
。
- 首先对 x2 进行积分,得到以下等效表达式:

- 如果
且 X1 和 X2 独立,则
。
- 如果
,其中 X1 和 X2 独立,那么
。
- 如果
,其中 X1 和 X2 独立,那么
。

- 令
。根据公式 8,我们需要求解

- 最后一个积分是在半径为 y ≤ 1 的圆上,因此面积为
。这简化了计算
.
- 如果 y<0,我们在空集上进行积分,结果为 0。如果 y>1,
. 因此,最终结果是

- 以下图形说明了这个示例
图 (a) 显示了从半径为 1 的圆内的均匀分布中随机采样的点,这些点被细分为环状。在图 (b) 中,我们统计了落在每个宽度相同的环状区域内的点。由于环状区域的面积随着半径线性增加,因此可以预期半径更大的环状区域会有更多点。当 Δv → 0 时,图 (b) 中的归一化直方图将收敛于所需的概率密度函数 ρY。为了用解析方法计算 ρY,我们首先推导出累积分布函数 FY,并在图 (d) 中绘制。FY(y) 是在半径为 v 的圆圈内找到一个点的概率(在图 (c) 中以灰色显示)。对于 v 在 0 和 1 之间,我们发现
. FY 的斜率是所需的概率密度函数
,与图 (b) 一致。
设
是一个密度为
的随机向量,并且设
是一个微分同胚。对于
的密度
,我们有

因此
-
ℝn → ℝn 映射
|
|
|
|
其中
是 雅可比行列式 的
。 请注意
。 在一维情况下 (n=1),公式 10 与公式 5 一致。
- 给定随机向量
,可逆矩阵 A 和向量
,令
。那么
。此外,
.
- 给定独立的随机变量
和
,我们引入 极坐标
和
。逆映射为
和
。由于雅可比行列式
,所需的密度为
.
即使上述特殊情况都不适用,简化仍然有可能。其中一些列在下面
如果事先知道
的分量将是独立的,即

则每个分量
的密度
可以像上面部分随机向量到随机变量的映射那样计算。
- 给定随机向量
具有独立的分量。
- 令
,
.
- 显然,分量 Y1 = X1 + X2 和 Y2 = X3 + X4 是独立的,因此
以及
.
- 请注意,即使
的成分不是独立的,
的成分可以是独立的。
有时将公式3中的积分区域分成可以单独计算的部分很有用。可以通过使用狄拉克函数重写3来明确地做到这一点

然后使用恒等式
.
- 为了说明这个想法,我们使用一个简单的ℝn → ℝ示例:令Y = X12 + X22 + X3,其中

- 同时满足 x12 + x22 + x3 ≤ y、x12 + x22 ≤ 1 和 x3 ≥ 0 的区域的 参数化可能并不明显,因此我们使用上面两个公式
![{\displaystyle {\begin{array}{rcl}\varrho _{Y}(y)&=&\int _{\mathbb {R} ^{3}}\varrho _{\vec {X}}({\vec {x}})\,\delta (y-f({\vec {x}}))\,dx_{1}\,dx_{2}\,dx_{3}\\&=&\int _{0}^{\infty }\iint _{x_{1}^{2}+x_{2}^{2}\leq 1}{\frac {e^{-x_{3}}}{\pi }}\,\delta (y-x_{1}^{2}-x_{2}^{2}-x_{3})\,dx_{1}\,dx_{2}\,dx_{3}\\&=&\int _{0}^{\infty }\iint _{x_{1}^{2}+x_{2}^{2}\leq 1}{\frac {e^{-x_{3}}}{\pi }}\,\int _{\mathbb {R} }\delta (\xi -x_{1}^{2}-x_{2}^{2})\,\delta (y-x_{3}-\xi )\,d\xi \,\,dx_{1}\,dx_{2}\,dx_{3}\\&=&\int _{0}^{\infty }\,\int _{\mathbb {R} }\left[\iint _{x_{1}^{2}+x_{2}^{2}\leq 1}{\frac {e^{-x_{3}}}{\pi }}\delta (\xi -x_{1}^{2}-x_{2}^{2})\,dx_{1}\,dx_{2}\right]\,\delta (y-x_{3}-\xi )\,d\xi \,dx_{3}\end{array}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/93bdd9606740d44dbe46b12fee85a7296eb5e749)
- 现在,我们将积分拆分,使得括号中的表达式可以单独计算,因为该区域仅取决于 x1 和 x2,并且可能仅包含 x3 作为参数。

- 因此

如果 f 是单射的,那么引入额外的辅助坐标 Ym+1 到 Yn 会更容易,然后进行第 可逆变换随机向量 节中的
变换,最后对所有得到的辅助坐标进行积分。
- 给定随机向量
,密度为
,以及以下映射:

- 现在我们引入辅助坐标 Y3 = X3,这将得到变换矩阵

- 以及相应的 pdf
。因此,我们最终得到

- 备注:如果联合概率密度函数
,即条件概率分布,并不重要,而我们只关心边缘分布,其中
,那么可以使用随机向量到随机变量的映射中描述的方法来计算该密度,对于映射 Y1 = 1 X1 + 2 X2 + 3 X3(同样适用于 Y2 = 4 X1 + 5 X2 + 6 X3)。
为了展示一些可能的应用,我们提出了以下问题,可以使用本维基教科书中概述的技术来回答。原则上,这些答案也可以使用数值随机数模拟来近似:生成多个
的实现,计算
,并制作结果直方图。然而,为了获得合理的结果,尤其是在高维随机向量的情况下,需要大量的随机数。值得庆幸的是,我们总是可以使用上述公式分析地计算结果分布。
- 假设激光中的原子以正态分布的速度 Vx 移动,
,σ2 = kBT/m。由于多普勒效应,以频率 f0 发射的光线,当原子以 vx 移动时,将被检测为 f ≈ f0 ( 1 + vx / c )。因此,f 是 Vx 的函数。检测到的光谱,
,看起来像什么?(答案:以 f0 为中心的正态分布。)
- 假设理想气体的速度分量(Vx,Vy,Vz)与上例相同,并且独立地正态分布。什么是
的概率密度
?(答案被称为麦克斯韦-玻尔兹曼分布。)
- 假设我们不知道 X 和 Y 的确切值,但我们可以为它们分别分配概率分布。推导属性 Z = X2 / Y 的分布是什么?Z 的平均值和标准差是多少?(为了解决此类问题,有时使用围绕平均值的线性化,并且假设 X 和 Y 都是正态分布的。但是,我们并不局限于此类限制。)
- 假设我们考虑一年后一克金、银和铂的价值,分别作为独立的随机变量 G、S 和 P。A 盒包含 1 克金、2 克银和 3 克铂。B 盒分别包含 4、5 和 6 克。因此,
。一年后 A 盒(或 B 盒)中的内容价值是多少?(答案在上面的示例中给出。)请注意,A 和 B 是相关的。
请注意,以上示例假设
的分布是已知的。如果未知,或者如果计算仅基于少量数据点,则来自数理统计的方法是量化不确定性的更好选择。
可以通过首先生成一个不相关随机数向量,然后对它们应用函数来获得相关随机数。
- 为了获得协方差矩阵为 CY 的随机数,我们可以使用以下已知过程:计算 CY 的 Cholesky 分解 CY = A AT。生成一个向量
,其中不相关随机数的 var(Xi) = 1。应用矩阵 A:
。这将导致协方差矩阵为 CY = A AT 的相关随机变量。
- 使用本维基教科书中概述的公式,我们还可以研究所得分布的形状以及非线性变换的影响。例如,考虑 X 在 [0, 2π] 中均匀分布,Y1 = sin(X) 且 Y2 = cos(X)。在这种情况下,(Y1, Y2) 中随机数的二维图将显示一个圆上的均匀分布。尽管 Y1 和 Y2 在随机上是相关的,但它们是不相关的。因此,重要的是要知道所得分布,因为
包含比协方差矩阵 CY 更多的信息。