微积分/多元优化：拉格朗日

问题

在前面的章节中，我们讨论了如何使用微积分找到单变量函数 $y=f(x)$ 的最优解，方法是找到所有满足 $f'(x)=0$ 的点。但是，如果我们给定一个二元函数，例如 $z=f(x,y)$ ？更重要的是，如果我们给定了需要遵循的约束呢？单变量模型根本无法扩展。

一个变量，一个约束

考虑优化问题 $\min {f(x)}$ ，给定一个约束 $g(x)=h$ 。

首先将约束写成等于 0 的形式 - 因此 $g(x)-h=0$ 。然后，系统的拉格朗日函数定义为 $L(x,\lambda )=f(x)+\lambda (g(x)-h)$ 。我们需要优化两个变量 - $x$ 和 $\lambda$ 。然后找到关于变量的导数

${\frac {\partial L}{\partial x}}=f'(x)+\lambda g'(x)$

${\frac {\partial L}{\partial \lambda }}=g(x)-h$

将它们设为 0。然后，最优集 $\{x,\lambda \}$ 是 $f'(x)+\lambda g'(x)=0$ 和 $g(x)=h$ 的解。

待办事项	编辑说明一些作者只会正式对变量求偏导数，并将约束直接设为 0；这完全没问题，也很容易证明这两种方法是等效的。这很重要，因为在使用 KKT 条件进行不等式约束的约束优化时（在本节中没有涵盖），对约束求偏导数会将问题转换为拉格朗日等式问题，这不是同一个问题。很容易将两者混淆。

一个简单的单变量示例

示例。 在约束条件 $x^{2}=25$ 的情况下，求解优化问题 $\min {5x+3}$ .

那么拉格朗日系统为 $L(x,\lambda )=5x+3+\lambda (x^{2}-25)$ 。分别对它们求导

${\frac {\partial L}{\partial x}}=5+\lambda (2x)$

${\frac {\partial L}{\partial \lambda }}=x^{2}-25$

将第二个导数设为零 - 我们得到 $x=\pm 5$ 。将其代入第一个：我们得到 $5+10\lambda =0$ ，即 $\lambda =-{\frac {1}{2}}$ 。将其代入第二个：我们得到 $\lambda ={\frac {1}{2}}$ 。在这种情况下，最佳的最小值是集合 $\{x,\lambda \}=\{-5,{\frac {1}{2}}\}$ （这是我们想要的），而最佳的最大值是集合 $\{x,\lambda \}=\{5,{\frac {-1}{2}}\}$ .

重要的是要意识到拉格朗日并不保证特定解是极小值 - 我们需要自己测试解 - 正如在一个例子中，解实际上是极大值。

实际上，这是一个非常糟糕的例子，正如你可能已经看到的那样 - 在这种情况下，简单地用约束条件给出的两个有效值来测试优化问题完全是合适的！当我们有多个变量和约束条件需要考虑时，它会更有用。

两个变量，一个约束

考虑在约束条件 $g(x,y)=h$ 的情况下，求解优化问题 $\min {f(x,y)}$ .

拉格朗日系统几乎与上面讨论的单变量情况相同，只是我们需要考虑三个偏导数（两个变量+一个约束）： $L(x,y,\lambda )=f(x,y)+\lambda (g(x,y)-h)$ 。现在分别求偏导数

${\frac {\partial L}{\partial x}}=f'_{x}(x,y)+\lambda g'_{x}(x,y)$ （第一个变量x）

${\frac {\partial L}{\partial y}}=f'_{y}(x,y)+\lambda g'_{y}(x,y)$ （第二个变量y）

${\frac {\partial L}{\partial \lambda }}=g(x,y)-h$ （约束条件）

将它们设为 0 - 最优三元组 $\{x,y,\lambda \}$ 是该方程组的解。

一个二元例子

例子. 求解优化问题 $\max {5x+3y}$ ，给定约束条件 $x^{2}+y^{2}=25$ 。

解决方案。

建立拉格朗日函数

$L(x,y,\lambda )=(5x+3y)+\lambda (x^{2}+y^{2}-25)$

求偏导数

${\frac {\partial L}{\partial x}}=5+\lambda (2x)$

${\frac {\partial L}{\partial y}}=3+\lambda (2y)$

${\frac {\partial L}{\partial \lambda }}=x^{2}+y^{2}-25$

将它们设为 0，我们有

$5+2\lambda x=0$

$3+2\lambda y=0$

$x^{2}+y^{2}=25$

消去 $\lambda$ 从前两个方程得到x和y之间的关系

从第二个方程式， $2\lambda y=-3$ ，或者 $\lambda ={\frac {-3}{2y}}$ 。类似地，从第一个方程式， $2\lambda x=-5$ ，或者 $\lambda ={\frac {-5}{2x}}$ 。将这两个结果与 $\lambda$ 结合，我们得到 ${\frac {-3}{2y}}={\frac {-5}{2x}}$ 。简化，这是 ${\frac {-3}{y}}={\frac {-5}{x}}$ ，或者 ${\frac {-3x}{y}}=-5$ ，这是 ${\frac {-3x}{-5}}=y$ 。这与 $y={\frac {3x}{5}}$ 相同。

现在将它代入第三个方程式以求解x和y

$x^{2}+y^{2}=25$

$x^{2}+{\frac {9x^{2}}{25}}=25$

${\frac {34x^{2}}{25}}=25$

$x=\pm {\sqrt {\frac {625}{34}}}$ （大约为±4.288）

同样， $y={\frac {3x}{5}}=\pm {\frac {3}{5}}{\frac {25}{\sqrt {34}}}$ （大约为±2.572）。

记住，这是一个最大化问题，因此我们发现 $x={\sqrt {\frac {625}{34}}}$ 和 $y={\frac {3}{5}}{\sqrt {\frac {625}{34}}}$ （另一个解是最小值）。我们可以求解约束 $\lambda$ 的值，但这在这里没有必要，因为问题只要求我们求解最大值。请注意，如上所述，拉格朗日乘数法倾向于给出边界解，而我们则需要找出其中哪一个是实际解（如果有的话）。

我们必须使用拉格朗日乘数法吗？实际上，不是。这个问题可以通过将约束中的一个变量写成另一个变量的函数来简化为单变量形式： $y=\pm {\sqrt {25-x^{2}}}$ ，然后将它代入优化问题

$\max {(5x+3y)}=\max {(5x\pm 3({{\sqrt {25-x^{2}}})})}$

并使用单变量微积分技术来解决问题！但是，当有 **三个** 变量时，你能做到吗？不行，因为你很可能只能将问题简化为两个变量。

一般形式

在本节中，考虑大小为 *n* 的向量 **x**： ${\textbf {x}}={\begin{pmatrix}x_{1}\\x_{2}\\x_{3}\\...\\x_{n}\end{pmatrix}}$ .

定义。 (拉格朗日函数)

考虑优化问题 $\min {f({\textbf {x}})}$ ，给定一个包含 *m* 个约束的向量 ${\textbf {g}}(x)={\begin{pmatrix}g_{1}({\textbf {x}})\\g_{2}({\textbf {x}})\\g_{3}({\textbf {x}})\\...\\g_{m}({\textbf {x}})\end{pmatrix}}=0$ .

该系统的拉格朗日函数定义为 $L({\textbf {x}},\lambda )=f({\textbf {x}})+\lambda ({\textbf {g}}(x))$ .

然后对向量 **x** 和 **λ** 求偏导数：求 ${\frac {\partial L}{\partial {\textbf {x}}}}$ 和 ${\frac {\partial L}{\partial \lambda }}$ .

注意，该系统有 *m* + *n* 个变量，你需要对它们求 *m* + *n* 个偏导数。这可能会变得相当混乱。解决方法是使用矩阵微积分.

这可能会让你感到害怕，但你不必担心。平均的微积分 3 课程只会考虑 2 到 3 个变量。

正则性条件

本节需要线性代数知识；因此，平均的微积分 3 课程不太可能涉及这方面内容。

在考虑拉格朗日 FONC（一阶必要条件）时，正则性条件适用

定义。 (拉格朗日 FONC)

考虑函数 $f$ 的一个最小化点 ${\textbf {x}}$ ，该点也是正则的。那么存在一个 $\lambda$ ，使得 $\nabla L({\textbf {x}},\lambda )$ = 0.

记住，这是一个 **必要** 条件。这意味着

仅仅因为一个点满足拉格朗日 FONC，并不意味着它是一个最小化点或最大化点。
不满足拉格朗日 FONC 的点不可能是最小值或最大值。

定义。 （正则性条件）给定一个约束向量 ${\textbf {g}}(x)=0$ ，正则性条件表示每个约束在特定点的梯度必须线性无关。

如果该条件不满足，拉格朗日 FONC 不适用于该点。只有一个约束时，此条件无关紧要，因为根据定义，单个向量是线性无关的。

示例。

设 ${\textbf {g}}(x,y)$ 定义为 ${\textbf {g}}(x)={\binom {(x+1)^{2}+y^{2}-1}{(x-2)^{2}+y^{2}-4}}$ 。判断这些向量在点 (0,0) 处是否正则。

解决方案。

求梯度

$\nabla g_{1}(x,y)={\binom {2(x+1)}{2y}},\nabla g_{2}(x,y)={\binom {2(x-2)}{2y}}$

代入点 (0,0)

$\nabla g_{1}(0,0)={\binom {2}{0}},\nabla g_{2}(0,0)={\binom {-4}{0}}$

现在问题简化为检查向量 ${\binom {2}{0}}$ 和 ${\binom {-4}{0}}$ 是否线性无关。为此，回顾线性无关要求给定两个常数 $\alpha _{1}$ 和 $\alpha _{2}$ ， $\alpha _{1}{\binom {2}{0}}+\alpha _{2}{\binom {-4}{0}}={\binom {0}{0}}$ 的解必须仅在 $\alpha _{1}=\alpha _{2}=0$ 时出现。

这显然不是这种情况：一个简单的例子是设置 $\alpha _{1}=2$ 和 $\alpha _{2}=1$ 。因此，拉格朗日 FONC 不适用于该点的问题。