基本上,这里的所有部分都可以在线性代数书中找到。但是,格拉姆-施密特正交化被用于统计算法和解决统计问题。因此,我们将简要介绍理解格拉姆-施密特正交化所需的线性代数理论。
以下子节也包含示例。对于进一步理解,重要的是这里介绍的概念不仅适用于作为实数元组的典型向量,也适用于可以被视为向量的函数。
一个集合
,在其元素上具有两个运算
和
,被称为域(或简写为
),如果满足以下条件
- 对于所有
,有 data:image/s3,"s3://crabby-images/ac4ec/ac4ecaf7136fe86d288954c9c4f2cb03e9059732" alt="{\displaystyle \alpha +\beta \in R}"
- 对于所有
,有
(交换律)
- 对于所有
,有
(结合律)
- 存在一个独特的元素
,称为 *零*,使得对于所有
都有 data:image/s3,"s3://crabby-images/17bcc/17bcc4d63e706d7307b88ee55bcfd5135886d0f8" alt="{\displaystyle \alpha +0=\alpha }"
- 对于所有
,存在一个唯一的元素
,使得 data:image/s3,"s3://crabby-images/2834b/2834b3b87463ee080c22017f25e45af3feefe195" alt="{\displaystyle \alpha +(-\alpha )=0}"
- 对于所有
都有 data:image/s3,"s3://crabby-images/6e4be/6e4bed632a47709b9284035d481855d50c544900" alt="{\displaystyle \alpha *\beta \in R}"
- 对于所有
都有
(交换律)
- 对于所有
都有
(结合律)
- 存在一个唯一的元素
,称为 *一*,使得对于所有
都有 data:image/s3,"s3://crabby-images/0d912/0d912cf90974be935b3e3b7bbef68023a2bd9e38" alt="{\displaystyle \alpha *1=\alpha }"
- 对于所有非零
,存在一个唯一的元素
,使得 data:image/s3,"s3://crabby-images/56cfb/56cfb50f25caf64365b6b46985c12bd70e5495d7" alt="{\displaystyle \alpha *\alpha ^{-1}=1}"
- 对于所有
都有
(分配律)
中的元素也被称为 *标量*。
很容易证明,具有众所周知的加法和乘法的实数
是一个域。对于具有加法和乘法的复数,情况也是如此。实际上,很少有其他集合可以满足所有这些条件。
对于统计学,只有实数和复数与加法和乘法很重要。
具有两个运算
和
的集合
称为在 R 上的向量空间,如果满足以下条件:
- 对于所有
满足 data:image/s3,"s3://crabby-images/e1502/e150238ce094342f53fd525ec87e677ac3461cec" alt="{\displaystyle x+y\in V}"
- 对于所有
满足
(交换律)
- 对于所有
满足
(结合律)
- 存在一个唯一的元素
,称为原点,使得对于所有
满足 data:image/s3,"s3://crabby-images/041ce/041ce20b27daec73e7fc021bc036b2122865638f" alt="{\displaystyle x+\mathbb {O} =x}"
- 对于所有
存在一个唯一的元素
,使得满足 data:image/s3,"s3://crabby-images/d612a/d612a9e460a8d36547243bc23d87fce8dec751f7" alt="{\displaystyle x+(-x)=\mathbb {O} }"
- 对于所有
和
满足 data:image/s3,"s3://crabby-images/2dbaa/2dbaacfaa11a951296dc66754e7c37b7ba934a84" alt="{\displaystyle \alpha *x\in V}"
- 对于所有
和
都满足
(结合律)
- 对于所有
和
都满足 data:image/s3,"s3://crabby-images/fc4a7/fc4a73a0733267e65c9e83bd432a231609181304" alt="{\displaystyle 1*x=x}"
- 对于所有
和所有
都满足
(对向量加法的分配律)
- 对于所有
和所有
都满足
(对标量加法的分配律)
注意,我们在
和
中使用了相同的符号
和
来表示不同的运算。
的元素也被称为 _向量_。
示例
- 集合
,其中包含实值向量
,并定义了逐元素加法
和逐元素乘法
,是一个关于
的向量空间。
- 度数为
的多项式集合
,其中定义了通常的加法和乘法,是一个关于
的向量空间。
如果向量
可以表示为向量
的线性组合,则
其中
。
示例
是
的线性组合,因为 data:image/s3,"s3://crabby-images/4e073/4e073bc7051d7a0f872021a61190938735ce79a2" alt="{\displaystyle (1,2,3)=1*(1,0,0)+2*(0,1,0)+3*(0,0,1)}"
是
的线性组合,因为 data:image/s3,"s3://crabby-images/b1fe8/b1fe89fe3d617f95da1a02317a329932e2a3a18d" alt="{\displaystyle 1+2*x+3*x^{2}=1*(1+x+x^{2})+1*(x+x^{2})+1*(x^{2})}"
一组向量
称为向量空间
的基,如果
1. 对于每个向量
存在标量
使得
2.
的任何子集都不能满足条件 1。
需要注意的是,一个向量空间可以有多个基。
示例
- 每个向量
可以写成
。因此,
是
的一个基。
- 每个
次多项式可以写成
的线性组合,因此构成该向量空间的基。
事实上,对于这两个例子,我们都需要证明条件 2,但很明显它成立。
向量空间的维数是指构成基所需要的向量的个数。向量空间有无穷多个基,但维数是唯一确定的。请注意,向量空间可能具有无穷维,例如考虑连续函数空间。
示例
的维数是 3,
的维数是
。
次多项式的维数是
。
映射
称为标量积,如果对于所有
和
以下成立:
data:image/s3,"s3://crabby-images/2cb6c/2cb6cdc8bb94a4862989d64592a21492e4a45e3e" alt="{\displaystyle <\alpha _{1}x_{1}+\alpha _{2}x_{2},y>=\alpha _{1}<x_{1},y>+\alpha _{2}<x_{2},y>}"
data:image/s3,"s3://crabby-images/fb0bf/fb0bfa6950f82071c73c798ee340923122b59c89" alt="{\displaystyle <x,\alpha _{1}y_{1}+\alpha _{2}y_{2}>=\alpha _{1}<x,y_{1}>+\alpha _{2}<x,y_{2}>}"
,其中 data:image/s3,"s3://crabby-images/90d3b/90d3b7682edd88e9a285a43a1a7cce4a9a2acf82" alt="{\displaystyle {\overline {\alpha +\imath \beta }}=\alpha -\imath \beta }"
,其中data:image/s3,"s3://crabby-images/b0b84/b0b84a0178b185fa454ef65a0a024c0de36112ab" alt="{\displaystyle <x,x>=0\Leftrightarrow x=\mathbb {O} }"
示例
- 在
中,典型的标量积是
。
是度数为
的多项式向量空间上的标量积。
向量的 *范数* 是一个映射
,如果满足以下条件:
对于所有
以及
(正定性)
对于所有
以及所有 data:image/s3,"s3://crabby-images/fd365/fd365a9b7d21c4233f075cabf757297af7d798a1" alt="{\displaystyle \alpha \in R}"
对于所有
(三角不等式)
示例
- 在
中,向量的
范数定义为
.
- 每个标量积通过
生成一个范数,因此
是
次多项式的范数。
如果
,则称两个向量
和
彼此正交。在
中,两个向量之间的夹角的余弦可以表示为
.
如果
和
之间的夹角为 90 度(正交),则余弦为零,因此
.
如果向量集
满足
,则称此向量集为标准正交向量集。.
如果我们考虑一个向量空间的基底
,那么我们希望有一个正交归一基。为什么呢?
由于我们有一个基底,每个向量
和
可以表示为
和
。因此,
和
的标量积简化为
|
|
|
|
|
|
|
|
因此,如果系数已知,标量积的计算就简化为简单的乘法和加法。请记住,对于我们的多项式,我们需要解一个积分!
格拉姆-施密特正交化的目标是,对于一组向量
,找到一组等效的 *标准正交* 向量
,使得任何可以用
的线性组合表示的向量,也可以用
的线性组合表示。
1. 设置
以及
。
2. 对于每个
,设置
以及
。在每一步中,向量
投影到
上,并将结果从
中减去。
考虑区间
上的二次多项式,其标量积为
,范数为
。我们知道
和
是这个向量空间的一组基。现在让我们构造一个正交归一基。
步骤 1a:data:image/s3,"s3://crabby-images/2e185/2e185ef6db0ed31796d695c41d556a8a1ec554ac" alt="{\displaystyle b_{1}(x)=f_{1}(x)=1}"
步骤 1b:data:image/s3,"s3://crabby-images/ed53a/ed53a39342472ba63d8894f5ad816b44c314491d" alt="{\displaystyle o_{1}(x)={\frac {b_{1}(x)}{\|b_{1}(x)\|}}={\frac {1}{\sqrt {<b_{1}(x),b_{1}(x)>}}}={\frac {1}{\sqrt {\int _{-1}^{1}1dx}}}={\frac {1}{\sqrt {2}}}}"
步骤 2a:data:image/s3,"s3://crabby-images/8a7f4/8a7f43dfd02206ae5b67c2ef4717ca27c708b5bd" alt="{\displaystyle b_{2}(x)=f_{2}(x)-{\frac {<f_{2}(x),b_{1}(x)>}{<b_{1}(x),b_{1}(x)>}}b_{1}(x)=x-{\frac {\int _{-1}^{1}x\ 1dx}{2}}1=x-{\frac {0}{2}}1=x}"
步骤 2b:data:image/s3,"s3://crabby-images/db001/db0011ec478c1aa22d27cdb478475399b8302b27" alt="{\displaystyle o_{2}(x)={\frac {b_{2}(x)}{\|b_{2}(x)\|}}={\frac {x}{\sqrt {<b_{2}(x),b_{2}(x)>}}}={\frac {x}{\sqrt {\int _{-1}^{1}x^{2}dx}}}={\frac {x}{\sqrt {2/3}}}=x{\sqrt {3/2}}}"
步骤 3a:data:image/s3,"s3://crabby-images/4881c/4881c6d3c672df9f8fd966d05d52838d3dd59327" alt="{\displaystyle b_{3}(x)=f_{3}(x)-{\frac {<f_{3}(x),b_{1}(x)>}{<b_{1}(x),b_{1}(x)>}}b_{1}(x)-{\frac {<f_{3}(x),b_{2}(x)>}{<b_{2}(x),b_{2}(x)>}}b_{2}(x)=x^{2}-{\frac {\int _{-1}^{1}x^{2}1\ dx}{2}}1-{\frac {\int _{-1}^{1}x^{2}x\ dx}{2/3}}x=x^{2}-{\frac {2/3}{2}}1-{\frac {0}{2/3}}x=x^{2}-1/3}"
步骤 3b:data:image/s3,"s3://crabby-images/ddf8d/ddf8d200be83a0d5a81236fc3c85c74b294a01a8" alt="{\displaystyle o_{3}(x)={\frac {b_{3}(x)}{\|b_{3}(x)\|}}={\frac {x^{2}-1/3}{\sqrt {<b_{3}(x),b_{3}(x)>}}}={\frac {x^{2}-1/3}{\sqrt {\int _{-1}^{1}(x^{2}-1/3)^{2}dx}}}={\frac {x^{2}-1/3}{\sqrt {\int _{-1}^{1}x^{4}-2/3x^{2}+1/9\ dx}}}={\frac {x^{2}-1/3}{\sqrt {8/45}}}={\sqrt {\frac {5}{8}}}(3x^{2}-1)}"
可以证明
和
构成上述内积和范数下的正交规范基。
考虑向量
和
。假设
足够小,以至于在计算机上计算
成立(参见 http://en.wikipedia.org/wiki/Machine_epsilon)。让我们计算在
中,这些向量使用标准内积
和范数
的正交规范基。
步骤 1a. data:image/s3,"s3://crabby-images/23b5a/23b5a6bcb69450aecf4708c939bc5da3dd3f5bf3" alt="{\displaystyle b_{1}=x_{1}=(1,\epsilon ,0,0)}"
步骤 1b.
,其中 data:image/s3,"s3://crabby-images/2e1ac/2e1ac8f9700387bd76a4e2dac7ea1acf6663cdd0" alt="{\displaystyle 1+\epsilon ^{2}=1}"
步骤 2a. data:image/s3,"s3://crabby-images/5d1c4/5d1c4dba4216b82f8190d35137f90f555a210b82" alt="{\displaystyle b_{2}=x_{2}-{\frac {<x_{2},b_{1}>}{<b_{1},b_{1}>}}b_{1}=(1,0,\epsilon ,0)-{\frac {1}{1+\epsilon ^{2}}}(1,\epsilon ,0,0)=(0,-\epsilon ,\epsilon ,0)}"
步骤 2b. data:image/s3,"s3://crabby-images/15c6a/15c6a407539bc694d20afc8304d400b0ef6a397f" alt="{\displaystyle o_{2}={\frac {b_{2}}{\|b_{2}\|}}={\frac {b_{2}}{\sqrt {2\epsilon ^{2}}}}=(0,-{\frac {1}{\sqrt {2}}},{\frac {1}{\sqrt {2}}},0)}"
步骤 3a. data:image/s3,"s3://crabby-images/e8de6/e8de6808252f6ca41bf81a40a432b9cbfc448c46" alt="{\displaystyle b_{3}=x_{3}-{\frac {<x_{3},b_{1}>}{<b_{1},b_{1}>}}b_{1}-{\frac {<x_{3},b_{2}>}{<b_{2},b_{2}>}}b_{2}=(1,0,0,\epsilon )-{\frac {1}{1+\epsilon ^{2}}}(1,\epsilon ,0,0)-{\frac {0}{2\epsilon ^{2}}}(0,-\epsilon ,\epsilon ,0)=(0,-\epsilon ,0,\epsilon )}"
步骤 3b. data:image/s3,"s3://crabby-images/85946/85946993c054ff30b41641e6d91434538902ba83" alt="{\displaystyle o_{3}={\frac {b_{3}}{\|b_{3}\|}}={\frac {b_{3}}{\sqrt {2\epsilon ^{2}}}}=(0,-{\frac {1}{\sqrt {2}}},0,{\frac {1}{\sqrt {2}}})}"
很明显,对于向量
- data:image/s3,"s3://crabby-images/6ae1c/6ae1cad0ee1a245fb05fda3b1d6474917cf1eeb3" alt="{\displaystyle o_{1}=(1,\epsilon ,0,0)\ }"
- data:image/s3,"s3://crabby-images/3211c/3211ce1bc24921fb02cf31e4506071f923e0b59c" alt="{\displaystyle o_{2}=(0,-{\frac {1}{\sqrt {2}}},{\frac {1}{\sqrt {2}}},0)}"
- data:image/s3,"s3://crabby-images/61419/61419ae78d46061a5ef8786dec1d1afa4a02cc6e" alt="{\displaystyle o_{3}=(0,-{\frac {1}{\sqrt {2}}},0,{\frac {1}{\sqrt {2}}})}"
标量积
. 其他所有对也不为零,但它们乘以
,因此结果接近于零。
为了解决这个问题,使用修正的 Gram-Schmidt 算法。
- 设置
对于所有 data:image/s3,"s3://crabby-images/ee9b5/ee9b547c0105f1d0669bc89ae76da69eb99ff070" alt="{\displaystyle i}"
- 对于每个
从
到
,计算data:image/s3,"s3://crabby-images/7ea62/7ea621c0807c95ab8ef668ed136d91903c5f19f5" alt="{\displaystyle o_{i}={\frac {b_{i}}{\|b_{i}\|}}}"
- 对于每个
从
到
计算 data:image/s3,"s3://crabby-images/2a436/2a436cc600466e227ea9560ecc18e889afdd46c8" alt="{\displaystyle b_{j}=b_{j}-<b_{j},o_{i}>o_{i}\ }"
不同之处在于,我们首先计算新的
并将其从所有其他
中减去。我们将错误计算的向量应用于所有向量,而不是分别计算每个
。
步骤 1.
,
, data:image/s3,"s3://crabby-images/2d21f/2d21f34505f107ff9387b983b169728cecc79d23" alt="{\displaystyle b_{3}=(1,0,0,\epsilon )}"
步骤 2a.
,其中 data:image/s3,"s3://crabby-images/2e1ac/2e1ac8f9700387bd76a4e2dac7ea1acf6663cdd0" alt="{\displaystyle 1+\epsilon ^{2}=1}"
步骤 2b. data:image/s3,"s3://crabby-images/86c87/86c870129e5401bc439433df8b2a9e6fff71e464" alt="{\displaystyle b_{2}=b_{2}-<b_{2},o_{1}>o_{1}=(1,0,\epsilon ,0)-(1,\epsilon ,0,0)=(0,-\epsilon ,\epsilon ,0)\ }"
步骤 2c. data:image/s3,"s3://crabby-images/d39be/d39be6edd823f2e46ce291dac74cecb9738ada57" alt="{\displaystyle b_{3}=b_{3}-<b_{3},o_{1}>o_{1}=(1,0,0,\epsilon )-(1,\epsilon ,0,0)=(0,-\epsilon ,0,\epsilon )\ }"
步骤 3a. data:image/s3,"s3://crabby-images/15c6a/15c6a407539bc694d20afc8304d400b0ef6a397f" alt="{\displaystyle o_{2}={\frac {b_{2}}{\|b_{2}\|}}={\frac {b_{2}}{\sqrt {2\epsilon ^{2}}}}=(0,-{\frac {1}{\sqrt {2}}},{\frac {1}{\sqrt {2}}},0)}"
步骤 3b. data:image/s3,"s3://crabby-images/a2457/a2457439f855c1ea51ed7e65c637537b2c366af0" alt="{\displaystyle b_{3}=b_{3}-<b_{3},o_{2}>o_{2}=(0,-\epsilon ,0,\epsilon )-{\frac {\epsilon }{\sqrt {2}}}(0,-{\frac {1}{\sqrt {2}}},{\frac {1}{\sqrt {2}}},0)=(0,-\epsilon /2,-\epsilon /2,\epsilon )}"
步骤 4a. data:image/s3,"s3://crabby-images/d7947/d794765363c90ec6e38699de8cceda9b1c563b8d" alt="{\displaystyle o_{3}={\frac {b_{3}}{\|b_{3}\|}}={\frac {b_{3}}{\sqrt {3/2\epsilon ^{2}}}}=(0,-{\frac {1}{\sqrt {6}}},-{\frac {1}{\sqrt {6}}},{\frac {2}{\sqrt {6}}})}"
我们可以很容易地验证
.
在高维数据分析中,我们通常分析数据的投影。这种方法源于 Cramer-Wold 定理,该定理指出,如果我们知道所有一维投影,则多维分布是固定的。另一个定理指出,即使数据的多元分布高度非正态,多元数据的多数(一维)投影也看起来是正态的。
因此,在探索性投影追踪中,我们通过与(标准)正态分布的比较来判断投影的有趣性。如果我们假设一维数据
是标准正态分布的,那么在进行变换
后,其中
是标准正态分布的累积分布函数,那么
在区间
中均匀分布。
因此,有趣的程度可以通过
来衡量,其中
是根据数据估计的密度。如果密度
在区间
中等于
,则积分变为零,我们发现我们投影的数据服从正态分布。大于零的值表示投影数据的正态分布存在偏差,并且有希望是一个有趣的分布。
令
是一个具有内积
和范数
的正交多项式集。关于区间
中的密度
,我们可以得出什么结论?
如果
对于某个最大度数
成立,则有
我们也可以写成
或根据经验,我们得到一个估计量
.
我们描述术语
并为我们的积分得到
因此,使用正交函数集允许我们将积分简化为系数的求和,可以通过将
代入上述公式来从数据中估计。系数
可以提前预先计算。
剩下的唯一问题是找到正交多项式集
到达度数
。我们知道
为此空间形成一个基底。我们必须应用 Gram-Schmidt 正交化来找到正交多项式。这在 第一个示例 中已经开始。
得到的多项式称为归一化勒让德多项式。除一个缩放因子外,归一化勒让德多项式与 勒让德多项式 相同。勒让德多项式具有以下形式的递归表达式
因此,计算我们的积分就简化为计算
和
,并使用递归关系计算
。请注意,递归可能在数值上不稳定!
- Halmos, P.R. (1974). 有限维向量空间,施普林格:纽约