基本上,这里找到的所有章节都可以在线性代数书籍中找到。但是,格拉姆-施密特正交化被用于统计算法和统计问题的解决。因此,我们简要地介绍一下理解格拉姆-施密特正交化所需的线性代数理论。
以下小节也包含示例。对于进一步理解,理解此处介绍的概念不仅对作为实数元组的典型向量有效,而且对可以被视为向量的函数也有效,这一点非常重要。
一个集合,在其元素上具有两个运算和,被称为域(或简写为),如果满足以下条件
- 对于所有,成立
- 对于所有,成立(交换律)
- 对于所有,成立(结合律)
- 存在一个唯一的元素,称为零,使得对于所有 都成立
- 对于所有,存在一个唯一的元素,使得成立
- 对于所有 都成立
- 对于所有 都成立(交换律)
- 对于所有 都成立(结合律)
- 存在一个唯一的元素,称为一,使得对于所有 都成立
- 对于所有非零,存在一个唯一的元素,使得成立
- 对于所有 都成立(分配律)
中的元素也称为标量。
很容易证明,具有熟知的加法和乘法运算的实数构成一个域。复数在加法和乘法运算下也同样满足域的条件。实际上,满足所有这些条件的集合,带有两种运算的,并不多。
对于统计学来说,只有实数和复数以及它们的加法和乘法运算才是重要的。
如果一个集合上的两个运算和作用于其元素上,并且满足以下条件,则称其为R上的向量空间。
- 对于所有,成立
- 对于所有,成立(交换律)
- 对于所有,成立(结合律)
- 存在一个唯一的元素,称为零向量,使得对于所有,成立
- 对于所有,存在一个唯一的元素,使得成立
- 对于所有和,成立
- 对于所有 和 ,都成立 (结合律)
- 对于所有 和 ,都成立
- 对于所有 和所有 ,都成立 (对向量加法的分配律)
- 对于所有 和所有 ,都成立 (对标量加法的分配律)
注意,我们对 和 中的不同运算使用了相同的符号 和 。 中的元素也称为向量。
示例
- 实值向量集,其中向量表示为,并定义逐元素加法和逐元素乘法,构成一个在上的向量空间。
- 次数为的多项式集,使用通常的加法和乘法,构成一个在上的向量空间。
如果向量可以表示为向量的线性组合,则
其中。
示例
- 是的线性组合,因为
- 是 的线性组合,因为
如果一组向量 满足以下条件,则称其为向量空间 的 基:
1. 对于向量空间 中的每个向量 ,都存在标量 ,使得 2. 的任何子集都不能满足条件 1。
需要注意的是,一个向量空间可以有多个基。
示例
- 每个向量 可以写成 的形式。因此, 是 的一个基。
- 每个次数为的多项式可以写成的线性组合,因此构成该向量空间的一个基。
实际上,对于这两个例子,我们都需要证明条件2,但很明显它成立。
向量空间的维数是指构成一个基所需要的向量的个数。一个向量空间有无限多个基,但维数是唯一确定的。注意,向量空间的维数可以是无限的,例如,考虑连续函数的空间。
示例
- 的维数是三,的维数是。
- 次数为的多项式的维数是。
映射称为标量积,如果对于所有和都成立:
- ,其中
- ⟨x,x⟩≥0,其中⟨x,x⟩=0⇔x=O
示例
- 在IRp中的典型标量积为⟨x,y⟩=∑ixiyi。
- ⟨f,g⟩=∫abf(x)*g(x)dx是关于p次多项式向量空间的标量积。
向量的范数是一个映射||.||:V→R,如果满足以下条件:
- ||x||≥0,对于所有x∈V,并且||x||=0⇔x=O(正定性)
- ||αv||=|α|||x||,对于所有x∈V和所有α∈R
- ||x+y||≤||x||+||y||,对于所有x,y∈V(三角不等式)
示例
- 向量在中的范数定义为。
- 每个标量积通过生成一个范数,因此是度数为的多项式的范数。
如果,则两个向量和彼此正交。在中,两个向量之间夹角的余弦可以表示为
.
如果和之间的夹角为90度(正交),则余弦为零,因此。
如果向量集满足
,则该向量集被称为标准正交。
.
如果我们考虑向量空间的一组基,那么我们希望得到一组正交规范基。为什么呢?
由于我们有一组基,每个向量和都可以表示为和的形式。因此,和的标量积简化为
|
|
|
|
|
|
|
|
因此,如果已知系数,标量积的计算就简化为简单的乘法和加法。记住,对于我们的多项式,我们需要求解一个积分!
Gram-Schmidt正交化的目的是为一组向量找到一组等价的标准正交向量,使得任何可以表示为线性组合的向量,也可以表示为的线性组合。
1. 令 且
2. 对于每个,令 且 ,在每一步中,向量被投影到上,并将结果从中减去。
考虑区间内次数为2的多项式,其内积为,范数为。我们知道和是该向量空间的一组基。现在让我们构造一个正交规范基。
步骤 1a:
步骤 1b:
步骤 2a:
步骤 2b:
步骤 3a:
步骤 3b:
可以证明和构成具有上述标量积和范数的正交规范基。
考虑向量 和 。假设 足够小,使得在计算机上计算 成立(参见 http://en.wikipedia.org/wiki/Machine_epsilon)。让我们计算在 中,使用标准内积 和范数 ,这些向量的正交基。
步骤 1a.
步骤 1b. ,其中
步骤 2a.
步骤 2b.
步骤 3a.
步骤 3b.
很明显,对于向量
-
-
-
标量积。所有其他对也不为零,但它们乘以,使得我们得到接近零的结果。
为了解决这个问题,使用了改进的 Gram-Schmidt 算法
- 设置 对于所有
- 对于每个从到,计算
- 对于每个从到,计算
不同之处在于,我们首先计算新的,并将其从所有其他中减去。我们将错误计算的向量应用于所有向量,而不是分别计算每个。
步骤 1. ,,
步骤 2a. ,其中
步骤 2b.
步骤 2c.
步骤 3a.
步骤 3b.
步骤 4a.
我们可以很容易地验证。
在高维数据分析中,我们通常分析数据的投影。这种方法源于Cramer-Wold定理,该定理指出,如果我们知道所有一维投影,则多维分布就被确定。另一个定理指出,即使数据的多元分布高度非正态,多元数据的大多数(一维)投影看起来都是正态的。
因此,在探索性投影追踪中,我们通过与(标准)正态分布进行比较来判断投影的有趣性。如果我们假设一维数据服从标准正态分布,那么经过变换,其中是标准正态分布的累积分布函数,那么在区间上均匀分布。
因此,我们可以用来衡量数据的有趣程度,其中是根据数据估计得到的密度。如果密度在区间内等于,则积分结果为零,这意味着我们投影后的数据服从正态分布。大于零的值表示投影后的数据偏离正态分布,并且可能存在有趣的分布。
设是一组具有标量积和范数的正交多项式。在区间内,关于密度我们能得出什么结论?
如果对于某个最大阶数,,则成立
我们也可以写成,或者根据经验,我们可以得到一个估计量。
我们描述术语,并得到我们的积分
因此,使用正交函数集可以将积分简化为系数的求和,这些系数可以通过将代入上述公式从数据中估计得到。系数可以提前预先计算。
剩下的唯一问题是找到正交多项式集,最高次数为。我们知道构成此空间的基底。我们必须应用格拉姆-施密特正交化来找到正交多项式。这在第一个例子中已经开始。
得到的这些多项式称为正则化勒让德多项式。除了一个比例因子外,正则化勒让德多项式与勒让德多项式相同。勒让德多项式具有以下形式的递归表达式:
因此,计算我们的积分就简化为计算和,并使用递归关系计算。请注意,递归可能会出现数值不稳定!
- Halmos, P.R. (1974)。有限维向量空间,施普林格:纽约