微积分/矩阵上的微积分

本节概述了如何在矩阵上应用微积分。请注意，需要对线性代数有一个基本的理解——您应该熟悉矩阵操作的常用方法。

问题

考虑一个n乘n矩阵 ${\textbf {A}}$ 和一个n乘1向量 ${\textbf {x}}$ 。例如，我们如何求 ${\frac {d}{d{\textbf {x}}}}{\textbf {A}}{\textbf {x}}$ ？现在，如果您要天真地应用单变量微积分规则，一个合理的答案将是

${\frac {d}{d{\textbf {x}}}}{\textbf {A}}{\textbf {x}}={\textbf {A}}$

毕竟，问题的相应标量形式 ${\frac {d}{dx}}(ax)$ 确实是a。实际上，向量形式的答案是 ${\textbf {A}}$ 。但现在考虑以下问题： ${\frac {d}{d{\textbf {A}}}}{\textbf {A}}{\textbf {x}}$ 。如果您要采用标量形式，您可能会认为答案应该是 ${\textbf {x}}$ 。但这并不正确——实际上答案是 ${\textbf {x}}^{T}$ ，其中T表示向量x的转置。

本节的目的是触及这个美丽领域的表面——因为它不是大学里普通的微积分 3 或线性代数课程会讲到的东西——但它有自己的特点。它有什么用？矩阵微积分在机器学习和计算金融等其他领域得到了广泛应用。它还可以帮助我们避免使用（可能很麻烦的）拉格朗日，并有效地将问题简化为单变量场景！

关于向量的导数

在本节中，我们考虑涉及对向量x进行微分的问题。与上面一样，我们假设x是一个列向量。

思考这个问题的一种方法是将其简化为标量问题。请注意，我们可以将x视为标量的集合 ${\textbf {x}}={\begin{pmatrix}x_{1}\\x_{2}\\x_{3}\\...\\x_{n}\end{pmatrix}}$ 。现在分别求 ${\frac {\partial }{\partial x_{i}}}$ 的偏导数，其中 $1\leq i\leq n$ 。最后将它们组合在一起。我们实际上是在寻找 $\nabla f({\textbf {x}})$ - 步骤相同（只是之前，x 的大小是 2 或 3，代表 i、j 和 k 坐标系）。

所以让我们从上面的例子中尝试一下。我们想要找到，对于所有的 $1\leq i\leq n$ ，

${\frac {\partial }{\partial x_{i}}}({\textbf {A}}x_{i})$

... 也就是A。对于每个i都一样。

现在，如果你将所有偏导数组合起来会得到什么？就像你如何找到 ${\displaystyle \nabla f({\textbf {x}})}=\nabla f{\begin{pmatrix}x_{1}\\x_{2}\\x_{3}\\...\\x_{n}\end{pmatrix}}=\nabla {\begin{pmatrix}{\textbf {A}}x_{1}\\{\textbf {A}}x_{2}\\{\textbf {A}}x_{3}\\...\\{\textbf {A}}x_{n}\end{pmatrix}}$ ，你会得到 $\nabla f({\textbf {x}})={\begin{pmatrix}{\textbf {A}}\\{\textbf {A}}\\{\textbf {A}}\\...\\{\textbf {A}}\end{pmatrix}}$ 。这仅仅是A！实际上，这就是为什么 ${\frac {d}{d{\textbf {x}}}}{\textbf {A}}{\textbf {x}}={\textbf {A}}$ 。

迈向矩阵的第一步

现在我们回到另一个问题： ${\frac {d}{d{\textbf {A}}}}{\textbf {A}}{\textbf {x}}$ .

假设A是一个2×2的矩阵，并表示A为 ${\textbf {A}}={\begin{pmatrix}a_{11}&a_{12}\\a_{21}&a_{22}\end{pmatrix}}$ 。使用x相同的记法，进行矩阵乘法

${\textbf {A}}{\textbf {x}}={\begin{pmatrix}a_{11}&a_{12}\\a_{21}&a_{22}\end{pmatrix}}{\begin{pmatrix}x_{1}\\x_{2}\end{pmatrix}}={\begin{pmatrix}a_{11}\times x_{1}+a_{12}\times x_{2}\\a_{21}\times x_{1}+a_{22}\times x_{2}\end{pmatrix}}$

对A的每个元素求偏导数（这等效于求雅可比矩阵）。对于 $1\leq i,j\leq 2$ ，求 ${\frac {\partial }{\partial A_{ij}}}$

${\frac {\partial }{\partial A_{11}}}={\begin{pmatrix}x_{1}\\0\end{pmatrix}}$ ， ${\frac {\partial }{\partial A_{12}}}={\begin{pmatrix}x_{2}\\0\end{pmatrix}}$ ， ${\frac {\partial }{\partial A_{21}}}={\begin{pmatrix}0\\x_{1}\end{pmatrix}}$ 和 ${\frac {\partial }{\partial A_{22}}}={\begin{pmatrix}0\\x_{2}\end{pmatrix}}$

但是，接下来该怎么做呢？如何将结果“组合”起来？显然，我们遗漏了一些东西。

∇f的维度

让我们退一步，问一个问题：给定一个向量 ${\textbf {f}}={\textbf {A}}{\textbf {x}}$ ， $\nabla {\textbf {f}}$ 的维度应该是什么？

考虑上面的例子。我们有两个变量：A 有 4 个元素（2x2）和 x 有 2 个元素，我们想要找到 ${\frac {d{\textbf {f}}}{d{\textbf {A}}}}$ 。很容易看出 f 的维度是一个列向量，其中 ${\textbf {f}}={\binom {f_{1}}{f_{2}}}$ ，其中 ${\binom {f_{1}}{f_{2}}}={\begin{pmatrix}a_{11}\times x_{1}+a_{12}\times x_{2}\\a_{21}\times x_{1}+a_{22}\times x_{2}\end{pmatrix}}$ 。因此，我们还需要考虑关于 $f_{1}$ 和 $f_{2}$ 的导数。换句话说， ${\frac {df_{1}}{d{\textbf {A}}}}$ 和 ${\frac {df_{2}}{d{\textbf {A}}}}$ 是一个 2x2 向量，对应于矩阵 A 的每个元素的偏导数。

${\frac {d{\textbf {f}}}{d{\textbf {A}}}}$ 总共有多少个元素？对于构成 f 的两个标量中的每一个，都有四个偏导数。这导致了 (2 * (2 * 2)) = 8 个元素 - 实际上是一个张量（可以看作是更高阶的矩阵）。这就是事情开始变得混乱的地方，但幸运的是，这是一个足够简单的例子。

获得解决方案

所以让我们利用上面的观察来解决这个问题。

首先考虑 ${\frac {df_{1}}{d{\textbf {A}}}}$ ，其中 $f_{1}=a_{11}\times x_{1}+a_{12}\times x_{2}$ 。计算各个偏导数： ${\frac {\partial f_{1}}{\partial A_{11}}}=x_{1},{\frac {\partial f_{1}}{\partial A_{12}}}=x_{2},{\frac {\partial f_{1}}{\partial A_{21}}}=0$ 和 ${\frac {\partial f_{1}}{\partial A_{22}}}=0$ 。类似地， ${\frac {\partial f_{2}}{\partial A_{11}}}=0,{\frac {\partial f_{2}}{\partial A_{12}}}=0,{\frac {\partial f_{2}}{\partial A_{21}}}=x_{1}$ 和 ${\frac {\partial f_{2}}{\partial A_{22}}}=x_{2}$ 。

现在，我们如何将这些组合起来？问题是 $\nabla {\textbf {f}}$ 是一个张量，但我们只能使用矩阵显示二维表示。因此，让我们取与 $\nabla f_{1}$ 对应的“面”。我们可以用矩阵表示我们上面找到的偏导数集合（即雅可比矩阵）： $\nabla f_{1}={\begin{pmatrix}x_{1}&x_{2}\\0&0\end{pmatrix}}$ 。类似地， $\nabla f_{2}={\begin{pmatrix}0&0\\x_{1}&x_{2}\end{pmatrix}}$ 。我们观察到什么？这仅仅是 ${\textbf {x}}^{T}$ （注意从列向量到行向量的变化）！事实上，这就是我们证明 ${\frac {d}{d{\textbf {A}}}}{\textbf {A}}{\textbf {x}}={\textbf {x}}^{T}$ 的方法。

在实践中

在实践中，你无需每次都进行所有这些工作来寻找矩阵的导数。相反，存在许多矩阵手册（有时也称为速查表），它们提供了一张关于矩阵的常见导数的表格，而这正是你在实践中可能需要的。这里有一个。

一个例子

考虑 Markowitz 问题。假设我们有n支股票，我们希望分配权重 $w_{i}$ 。每支股票之间的互元素协方差为 $\sigma _{ij}$ ，对于所有 $1\leq i,j\leq n$ 。假设我们想以传统的方式解决这个问题。那么优化问题是最小化 $\sum _{i=1}^{n}{\sum _{j=1}^{n}{w_{i}\sigma _{ij}w_{j}}}$ ，受约束条件的约束，虽然很重要，但我们这里不提。

由于存在双重求和，解决这个问题可能很麻烦。让我们尝试矩阵微积分。令 **w** 为一个 N 行 1 列的向量， $\Sigma$ 为一个 N 行 N 列的矩阵。上述问题可以简化为最小化 ${\textbf {w}}^{T}\Sigma {\textbf {w}}$ ，你只需要对 **w** 求导数！如上所示，使用矩阵微积分手册， ${\frac {d}{d{\textbf {w}}}}{\textbf {w}}^{T}\Sigma {\textbf {w}}=2{\textbf {w}}^{T}\Sigma$ ，这比计算单个偏导数要优雅得多。