令 A ∈ R n × m {\displaystyle A\in R^{n\times m}\!\,} ,其中 n ≥ m {\displaystyle n\geq m\!\,} 。假设 r a n k ( A ) = m {\displaystyle rank(A)=m\!\,}
已知对称矩阵 A T A {\displaystyle A^{T}A\!\,} 可以分解为
其中, V {\displaystyle V\!\,} 的列是 A T A {\displaystyle A^{T}A\!\,} 的正交归一特征向量,而 Λ {\displaystyle \Lambda \!\,} 是一个对角矩阵,包含了相应的特征值。以此为起点,推导出 A {\displaystyle A\!\,} 的奇异值分解。也就是说,证明存在一个实正交矩阵 U {\displaystyle U\!\,} 和一个矩阵 Σ ∈ R n × m {\displaystyle \Sigma \in R^{n\times m}\!\,} ,除了对角元素 σ 1 ≥ σ 2 ≥ … ≥ σ m > 0 {\displaystyle \sigma _{1}\geq \sigma _{2}\geq \ldots \geq \sigma _{m}>0\!\,} 外,其他元素都为零,使得 A = U Σ V T {\displaystyle A=U\Sigma V^{T}\!\,}
我们要证明
A = U Σ V T {\displaystyle A=U\Sigma V^{T}\!\,}
这等同于
A V = U Σ {\displaystyle AV=U\Sigma \!\,}
分解 Λ {\displaystyle \Lambda \!\,} 为 Σ T Σ {\displaystyle \Sigma ^{T}\Sigma \!\,} ,即
[ σ 1 σ 2 ⋱ σ m ] ⏟ Λ ∈ R m × m = [ σ 1 0 ⋯ 0 σ 2 0 ⋱ ⋮ σ m 0 ⋯ 0 ] ⏟ Σ T ∈ R m × n [ σ 1 σ 2 ⋱ σ m 0 ⋯ 0 ⋮ ⋮ ⋮ 0 ⋯ 0 0 ] ⏟ Σ ∈ R n × m {\displaystyle \underbrace {\begin{bmatrix}\sigma _{1}&&&\\&\sigma _{2}&&\\&&\ddots &\\&&&\sigma _{m}\end{bmatrix}} _{\Lambda \in R^{m\times m}}=\underbrace {\begin{bmatrix}{\sqrt {\sigma _{1}}}&&&&0&\cdots &0\\&{\sqrt {\sigma _{2}}}&&&0&&\\&&\ddots &&\vdots &&\\&&&{\sqrt {\sigma _{m}}}&0&\cdots &0\end{bmatrix}} _{\Sigma ^{T}\in R^{m\times n}}\underbrace {\begin{bmatrix}{\sqrt {\sigma _{1}}}&&&\\&{\sqrt {\sigma _{2}}}&&\\&&\ddots &\\&&&{\sqrt {\sigma _{m}}}\\0&\cdots &&0\\\vdots &\vdots &&\vdots \\0&\cdots &0&0\end{bmatrix}} _{\Sigma \in R^{n\times m}}\!\,}
我们可以假设 σ 1 ≥ σ 2 ≥ … ≥ σ n > 0 {\displaystyle \sigma _{1}\geq \sigma _{2}\geq \ldots \geq \sigma _{n}>0\!\,} ,因为否则我们只需重新排列 V {\displaystyle V\!\,} 的列。
令 U = A V Σ − 1 {\displaystyle U=AV\Sigma ^{-1}\!\,} ,其中
Σ − 1 = ( 1 σ 1 0 ⋯ 0 1 σ 2 0 ⋱ ⋮ 1 σ m 0 ⋯ 0 ) , {\displaystyle \Sigma ^{-1}=\left({\begin{array}{ccccccc}{\frac {1}{\sqrt {\sigma _{1}}}}&&&&0&\cdots &0\\&{\frac {1}{\sqrt {\sigma _{2}}}}&&&0&&\\&&\ddots &&\vdots &&\\&&&{\frac {1}{\sqrt {\sigma _{m}}}}&0&\cdots &0\end{array}}\right),}
U U T = A V Σ − 1 Σ − T V T A T = A V Λ − 1 V T A T = A A − 1 A − T A T = I U T U = Σ − T V T A T A V Σ − 1 = Σ − T V T V Λ V T V Σ − 1 = I {\displaystyle {\begin{aligned}UU^{T}&=AV\Sigma ^{-1}\Sigma ^{-T}V^{T}A^{T}\\&=AV\Lambda ^{-1}V^{T}A^{T}\\&=AA^{-1}A^{-T}A^{T}\\&=I\\\\U^{T}U&=\Sigma ^{-T}V^{T}A^{T}AV\Sigma ^{-1}\\&=\Sigma ^{-T}V^{T}V\Lambda V^{T}V\Sigma ^{-1}\\&=I\end{aligned}}\!\,}