经典力学/拉格朗日理论

本节包含拉格朗日形式主义的几个理论发展，这些发展对于解决问题并不直接必要。但是，这些考虑有助于更深入地理解理论并回答一些重要问题。

为什么泛函的极值决定运动？

在力学的拉格朗日表述中，轨迹 ${\vec {q}}(t)$ 由作用泛函 $S[{\vec {q}}(t)]$ 应该有一个极值来决定。(并非总是这样，轨迹是最小作用；在某些情况下，它可能只是一个极值，即泛函导数 $\delta S/\delta {\vec {q}}(t)$ 为零。) 这个条件被称为作用原理。到目前为止，您应该熟悉从作用原理推导出运动方程的数学过程。

因此，在这一点上，您应该习惯于每个机械系统的正确运动方程确实遵循作用原理，如果拉格朗日函数被适当地选择。然而，您可能仍然感到困惑，牛顿定律等价于某个泛函的极值条件。您可能会问自己：为什么这可能？

这里有一个解释可能会有所帮助。让我们考虑一个简单的机械系统：一个质量为 $m$ 的质点，在一个维度上运动，坐标为 $x(t)$ ，在一个势能为 $U(x)$ 的力场中。(同样的考虑很容易推广到多个维度和多个坐标的情况。)假设 $x_{0}(t)$ 是根据牛顿定律正确的轨迹，

m{\ddot {x}}_{0}(t)=-\left.{\frac {dU}{dx}}\right|_{x=x_{0}(t)}.

我们如何使用泛函 $S[x]$ 来表达轨迹 $x(t)$ 是正确的那个？一种方法是要求 $x(t)$ 与 $x_{0}(t)$ 的偏差处处为零。这可以用泛函表示为

S_{1}[x]=\int _{t_{1}}^{t_{2}}[x(t)-x_{0}(t)]^{2}dt.

很明显，泛函 $S_{1}[x]$ 仅当 $x(t)=x_{0}(t)$ 对所有 $t$ 成立时，才取到最小值（显然最小值为 0）。这展示了如何使用泛函来表达函数的一些条件：泛函 $S_{1}[x]$ 衡量了 $x(t)$ 与 $x_{0}(t)$ 在整个过程中的偏差。最小的偏差是完全没有偏差；因此，泛函 $S_{1}[x(t)]$ 的最小值出现在轨迹 $x(t)$ 上，该轨迹与 $x_{0}(t)$ 完全没有偏差。

另一种类似的方法是使用泛函来指定轨迹

S_{2}[x]=\int _{t_{1}}^{t_{2}}[{\dot {x}}(t)-{\dot {x}}_{0}(t)]^{2}dt.

该泛函与边界条件 $x(t_{1})=x_{0}(t_{1}),x(t_{2})=x_{0}(t_{2})$ 联立，仅当 $x(t)=x_{0}(t)$ 对所有 $t$ 成立时，才取到最小值。

不可否认，泛函 $S_{1}[x],S_{2}(x)$ 无法帮助我们表述力学的规律，因为它们已经显式地包含了正确的轨迹 $x_{0}(t)$ 。现在，我们将从 $S_{2}[x]$ 开始构建另一个泛函， $S_{3}[x]$ ，试图消除对 $x_{0}(t)$ 的显式依赖。

让我们重写 $S_{2}[x]$ 为

S_{2}[x]=\int _{t_{1}}^{t_{2}}[{\dot {x}}^{2}-2{\dot {x}}{\dot {x}}_{0}+{\dot {x}}_{0}^{2}]dt.

第三项， ${\dot {x}}_{0}^{2}$ ，是一个固定函数，当我们改变 $x(t)$ 时不会改变。因此，我们可以从 $S_{2}$ 中省略该项。此外，我们希望得到 ${\ddot {x}}_{0}$ 而不是 ${\dot {x}}_{0}$ ，因为这样我们就可以使用牛顿定律来求出正确的轨迹。所以让我们用分部积分法积分第二项

-2\int _{t_{1}}^{t_{2}}{\dot {x}}{\dot {x}}_{0}dt=-2\left.x{\dot {x}}_{0}\right|_{t_{1}}^{t_{2}}+\int _{t_{1}}^{t_{2}}2x{\ddot {x}}_{0}dt.

边界项 $\left.x{\dot {x}}_{0}\right|_{t_{1}}^{t_{2}}$ 不会随着 $x(t)$ 而改变，因为 $x(t)$ 的边界值是固定的。因此，我们可以省略该项。最后，我们使用牛顿定律来用 $-m^{-1}U'(x_{0})$ 替换 ${\ddot {x}}_{0}$

\int _{t_{1}}^{t_{2}}2x{\ddot {x}}_{0}dt=-\int _{t_{1}}^{t_{2}}2m^{-1}xU'(x_{0}).

现在我们*假设*轨迹 $x(t)$ 与正确轨迹 $x_{0}(t)$ 的偏差非常小，那么我们可以近似地写成

xU'(x_{0})=(x-x_{0})U'(x_{0})+x_{0}U'(x_{0})=U(x)-U(x_{0})+O[(x-x_{0})^{2}]+x_{0}U'(x_{0}).

在上述假设下，可以忽略 $(x-x_{0})$ 的二次项。项 $U(x_{0})$ 和 $x_{0}U'(x_{0})$ 可以省略，因为它们与 $x(t)$ 无关。因此我们发现泛函 $S_{2}$ 等价于以下泛函，直到与 $x(t)$ 无关的非本质项

S_{3}[x]=\int _{t_{1}}^{t_{2}}[{\dot {x}}^{2}-2m^{-1}U(x)]dt.

很明显， $S_{3}$ 等价于通常的拉格朗日量，直到系数 $m/2$ 。

通过这种方式，我们得到了一个函数 $S_{3}[x]$ ，当 $x(t)$ 非常接近于 $x_{0}(t)$ 时，该函数具有最小值；也就是说，它是一个局部最小值。这个新函数不显式地依赖于 $x_{0}(t)$ ，正如我们所期望的。需要付出的代价是，这个函数只对微小的偏离正确轨迹的情况有效。事实上，函数 $S_{3}$ 可能还有其他最小值或最大值，而原始函数 $S_{2}$ 没有。对 $S_{3}$ 正确性的唯一真正理由是运动方程与牛顿定律一致。

为什么我们能够使用任意坐标来写拉格朗日量？

在简单的情况下，拉格朗日量等于动能和势能项的差。然而，需要选择一些坐标来描述这些项。然后，选择哪些变量作为坐标就完全无关紧要了；这些变量可以是长度、角度，或者长度和角度的任何函数（但不能是速度！）。换句话说，只要坐标能够充分描述每个质量点的可能位置，并且满足适当的约束条件，就可以使用任何坐标系，甚至只是某个坐标系的部分。因此，进入拉格朗日量的坐标被称为广义坐标。通常，为了方便起见，人们会选择广义坐标，以减少所需的计算量，或减少必要的约束条件的数量。

但是，你可能在问自己：为什么在拉格朗日形式主义中允许使用任意坐标呢？当然，我们知道，牛顿定律在不同的坐标系中是不一样的：例如，质量乘以加速度等于力，只有当加速度计算为 ${\ddot {\vec {x}}}(t)$ 时才成立，其中 ${\vec {x}}(t)$ 是笛卡尔坐标 $(x,y,z)$ 的向量。如果向量 ${\vec {x}}=(x_{1},x_{2},x_{3})$ 由，比如说，半径 $r={\sqrt {x^{2}+y^{2}+z^{2}}}$ 、方位角 $\phi$ 在 $(x,y)$ 平面内，以及坐标 $z$ 组成的话，这个公式就会不正确。但是，如果我们用变量 $(x_{1},x_{2},x_{3})=(r,\phi ,z)$ 来表示动能和势能，拉格朗日形式主义将能够很好地工作。运动方程将由欧拉-拉格朗日方程给出，

{\frac {d}{dt}}{\frac {\partial L}{\partial {\dot {\vec {x}}}}}={\frac {\partial L}{\partial {\vec {x}}}},

如前所述，人们说拉格朗日形式在坐标变换方面是协变的。

这种现象的原因可以用两种方式解释：更正式地，通过证明欧拉-拉格朗日方程在任意坐标变化下保持不变；或者更直观地，从几何角度来解决问题。

形式推导

为简单起见，我们只考虑拉格朗日量为 $L(q,{\dot {q}},t)$ 的一维问题，其中 $q(t)$ 是一个广义坐标。同样的考虑很容易推广到多个坐标的情况。

假设选择新的坐标 $x(t)$ 来代替 $q(t)$ 。新的坐标可以是旧坐标的函数。让我们考虑更一般的情况，即坐标的变化取决于时间（即，我们可以在不同的时间选择略微不同的坐标）。那么，新的坐标与旧坐标之间的关系可以用以下公式表示：

q(t)=F(x(t),t),

其中 $F(x,t)$ 是一个已知函数。

现在我们需要通过新的变量 $x$ 及其导数 ${\dot {x}}$ 来表达旧的拉格朗日量 $L(q,{\dot {q}},t)$ 。我们有

{\dot {q}}=F_{,t}+F_{,x}{\dot {x}},

其中，我们用带逗号的下标表示偏导数，例如 $\partial f(a,b,c)/\partial a\equiv f_{,a}$ 。这是物理学中常用的简化记法。

因此，用新变量 $x$ 表示的拉格朗日量为

L(q,{\dot {q}},t)={\tilde {L}}(x,{\dot {x}},t)=L(F(x,t),F_{,t}+F_{,x}{\dot {x}},t).

新的变量 $x$ 是一个很好的变量，如果它是旧变量的非平凡函数，即如果 $F_{,x}\neq 0$ 。那么新的拉格朗日函数将是一个非平凡函数，它依赖于 ${\dot {x}}$ 以及 $x$ 。因此，我们假设 $F_{,x}\neq 0$ 至少在 $x$ 的某个区间内。

现在让我们比较一下在旧坐标系和新坐标系中推导出的运动方程（EOM）。

旧的 EOM 可以写成

{\frac {d}{dt}}L_{,{\dot {q}}}=L_{,q}.

新的 EOM 是

{\frac {d}{dt}}{\tilde {L}}_{,{\dot {x}}}={\tilde {L}}_{,x}.

让我们用 $L$ 代替 ${\tilde {L}}$ 来表达这个方程

${\tilde {L}}_{,x}=L_{,q}F_{,x}+L_{,{\dot {q}}}(F_{,tx}+F_{,xx}{\dot {x}}),$

${\tilde {L}}_{,{\dot {x}}}=L_{,{\dot {q}}}F_{,x},$

{\frac {d}{dt}}{\tilde {L}}_{,{\dot {x}}}=F_{,x}{\frac {d}{dt}}L_{,{\dot {q}}}+L_{,{\dot {q}}}{\frac {d}{dt}}F_{,x}.

因此，新的 EOM 是

F_{,x}{\frac {d}{dt}}L_{,{\dot {q}}}+L_{,{\dot {q}}}{\frac {d}{dt}}F_{,x}=L_{,q}F_{,x}+L_{,{\dot {q}}}(F_{,tx}+F_{,xx}{\dot {x}}).

简化这个表达式，我们发现

F_{,x}{\frac {d}{dt}}L_{,{\dot {q}}}=F_{,x}L_{,q}.

我们发现新的运动方程在假设 $F_{,x}\neq 0$ 的情况下，确实等价于旧的运动方程。

几何图像

上面给出的计算直观明确，但可能会让你想知道它为什么有效。下面是一个更直观的解释。

欧拉-拉格朗日方程表达了泛函 $S[q]$ 在轨迹 $q(t)$ 处取得极值。想象一个包含所有轨迹的空间，即一个巨大的空间，其中每个“点”代表一条完整的轨迹 $q(t)$ 。泛函 $S[q]$ 在某个“点” $q_{0}$ 处取得极值，该“点”对应于机械系统的实际轨迹。当我们改变坐标 $q\to x$ 时，我们只是改变了对该轨迹空间的描述方式。但我们无法改变泛函 $S$ 在某个“点” $q_{0}$ 处取得极值的事实。我们只能改变对该“点”的描述方式。因此，在变量变换后，新的泛函 ${\tilde {S}}[x]=S[q]$ 仍然会在某个“点” $x_{0}$ 处取得极值，而这个“点” $x_{0}$ 必须对应于变量变换后的“点” $q_{0}$ 。极值的存在是泛函 $S$ 形状的几何特征，因此它与我们选择用坐标描述它的方式无关。

让我们考虑一个简单的例子，在这个例子中我们使用函数而不是泛函。函数 $f(q)=(q-1)^{2}$ 在 $q=1$ 处取得最小值。我们可以改变坐标系，使用 $x$ 来代替 $q$ ，例如 $q=F(x)\equiv 2\sin x$ 。这是一个在区间 $x\in (-\pi /2,\pi /2)$ 上定义良好的变量变换，其中 $F_{,x}\neq 0$ 。在新坐标系中，函数 $f(q)$ 看起来像 ${\tilde {f}}(x)=(2\sin x-1)^{2}$ 。这个函数在 $x=\pi /6$ 处取得最小值，其中 $2\sin x=1$ 。但是，从几何学的角度来看，这与之前的函数完全相同，只是在不同的坐标系下观察。因此，最小值 $x=\pi /6$ 是在坐标系变换后旧的最小值 $q=1$ 。

这种等价性可以通过更正式的方式观察到。函数 ${\tilde {f}}(x)$ 取得最小值的条件是

{\frac {d}{dx}}{\tilde {f}}(x)=0={\frac {df(q)}{dq}}{\frac {dF}{dx}}.

此条件等效于函数 $f(q)$ 的最小值的条件，即 $f_{,q}=0$ ，只要 $F_{,x}\neq 0$ 。这就是为什么旧坐标中最小值的位置， $q=1$ ，与新坐标中最小值的位置， $x=\pi /6$ ，完全一致。

类似地，当我们考虑泛函时，我们可以将 ${\tilde {S}}[x]=S[F(q)]$ 在新坐标中的最小值的条件写成

{\frac {\delta {\tilde {S}}}{\delta x(t)}}=0={\frac {\delta S}{\delta q(t)}}{\frac {dF}{dx}}.

很明显，只要新变量定义良好，即 $F_{,x}\neq 0$ ，最小值的条件在变量变化下保持不变。

拉格朗日量是唯一的吗？

另一个重要的问题是，对于给定的系统，是否只有一个拉格朗日量可以得到正确的运动方程。答案是，对于任何给定的系统，可以采用无限多个不同的拉格朗日量。

首先，始终可以将拉格朗日量乘以一个常数 $\alpha$ ，还可以向拉格朗日量中添加一个任意的固定时间函数， $F(t)$ 。修改后的拉格朗日量则为 ${\tilde {L}}(q,{\dot {q}},t)=\alpha L(q,{\dot {q}},t)+F(t)$ 。项 $F(t)$ 是“固定”的，因为它不依赖于 $q(t)$ 。然后我们可以显式地对该项进行积分，并将修改后的作用量表示为