- 定理
令
为一个函数,并令
为另一个函数。假设
在
处可微,且
在
处可微。
那么,
在
处可微,并且

- 证明
我们证明
是
的一个有效的微分,从而证明可微性。
我们首先注意到,根据三角不等式的第二个结论,有
![{\displaystyle \left|{\frac {{\big \|}g(x_{0}+\mathbf {h} )-g(x_{0}){\big \|}}{\|\mathbf {h} \|}}-{\frac {\|g'(x_{0})\mathbf {h} \|}{\|\mathbf {h} \|}}\right|\leq {\frac {{\Big \|}g(x_{0}+\mathbf {h} )-{\big [}g(x_{0})+g'(x_{0})\mathbf {h} {\big ]}{\Big \|}}{\|\mathbf {h} \|}}\to 0,\mathbf {h} \to 0}](https://wikimedia.org/api/rest_v1/media/math/render/svg/649b1a0f80fb77c6dcab734b6767b4bab25d3cca)
因此,

意味着

其中
是
的矩阵。
现在,我们根据三角不等式注意到,
![{\displaystyle {\begin{aligned}&{\frac {{\Big \|}(f\circ g)(x_{0}+\mathbf {h} )-{\big [}(f\circ g)(x_{0})+f'{\big (}g(x_{0}){\big )}g'(x_{0})\mathbf {h} {\big ]}{\Big \|}}{\|\mathbf {h} \|}}\\&\leq {\frac {{\bigg \|}f{\big (}g(x_{0}+h){\big )}-{\Big [}f{\big (}g(x_{0}){\big )}+f'{\big (}g(x_{0}){\big )}{\big [}g(x_{0}+h)-g(x_{0}){\big ]}{\Big ]}{\bigg \|}}{\|\mathbf {h} \|}}\\&+{\frac {{\bigg \|}f{\big (}g(x_{0}){\big )}+f'{\big (}g(x_{0}){\big )}{\big [}g(x_{0}+h)-g(x_{0}){\big ]}-{\Big [}(f\circ g)(x_{0})+f'{\big (}g(x_{0}){\big )}g'(x_{0})\mathbf {h} {\Big ]}{\bigg \|}}{\|\mathbf {h} \|}}\end{aligned}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/16ce647fd32a46ef5d5688739801c75e3029fe38)
我们将首先处理第一个加数,它更难,但也不算太难。我们把它改写成
![{\displaystyle {\frac {{\bigg \|}f{\big (}g(x_{0}+h){\big )}-{\Big [}f{\big (}g(x_{0}){\big )}+f'{\big (}g(x_{0}){\big )}{\big [}g(x_{0}+h)-g(x_{0}){\big ]}{\Big ]}{\bigg \|}}{{\big \|}g(x_{0}+h)-g(x_{0}){\big \|}}}\cdot {\frac {{\big \|}g(x_{0}+h)-g(x_{0}){\big \|}}{\|\mathbf {h} \|}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/edb0ec6f4222e1eb7a2923631dea418a272622cd)
后一个因子由于上述考虑是有界的,而第一个因子当
(因此
,由于相同的界限(乘以
);实际上,可微性意味着连续性)。
现在对于第二个加数,它通过简单的消去和微分的线性性,等于
![{\displaystyle {\frac {{\bigg \|}f'{\big (}g(x_{0}){\big )}{\Big [}{\big [}g(x_{0}+h)-g(x_{0}){\big ]}-g'(x_{0})\mathbf {h} {\Big ]}{\bigg \|}}{\|\mathbf {h} \|}}\leq mn\max _{1\leq i\leq l \atop 1\leq j\leq n}|b_{i,j}|{\frac {{\Big \|}{\big [}g(x_{0}+h)-g(x_{0}){\big ]}-g'(x_{0})\mathbf {h} {\Big \|}}{\|\mathbf {h} \|}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/a6fd36c73a73df330c8ef7878d78245f420ace2d)
其中
是
微分的矩阵。由于
微分的定义,当
时,它趋向于 0。
我们将要介绍的链式法则的第一个应用与一个称为梯度的东西有关,它被定义为函数
,即图像是一维的(在特殊情况下
,这些函数看起来像平面上
上的函数的“山脉”)。
- 定义
令
是可微的。然后,列向量

称为梯度。
定理:
令
是两个在
处完全可微的函数。由于它们都映射到
,它们的乘积是定义的,我们有

证明:
现在,人们可以直接从梯度的定义和通常的一维乘积规则(实际上它不需要完全可微性)来计算这一点,但有一个使用链式法则的巧妙技巧,我在 Terence Tao 的讲义中找到了它,我的数学部分的重复是基于它的。
我们简单定义
和
。那么函数
等于
。现在,
的微分由雅可比矩阵给出

而
的微分由雅可比矩阵给出

因此,乘积法则意味着
在
处的微分由下式给出

从梯度的定义我们可以看到,微分只不过是梯度的转置(反之亦然,因为转置是幂等的)。
现在我们将使用链式法则将一维中的一个众所周知的定理,即中值定理,推广到多个维度。
定理:
设
在
上可微,并设
。则存在
使得

其中
是
上的标准内积。
证明:
实际上,这是一个对链式法则的直接应用。
我们设定

因此
且
。根据一维中值定理,

对于合适的
。现在根据链式法则,
.
下一个定理表明,只要所考虑的函数具有足够的可微性,那么微分的顺序就不重要。在证明过程中,我们不需要使用一般链式法则或其任何推论,但我们会使用一维中值定理。
定理(克莱罗定理):
设
是一元函数,其偏导数直到二阶导数都存在且连续。则
.
证明:
我们从以下引理开始
引理:

证明: 我们首先应用微积分基本定理,得到上述极限等于

使用换元积分和积分的线性性,我们可以将其改写为

现在我们应用单变量中的中值定理得到

对于一个合适的
。因此,上述极限等于

这是在
的某个子集上对
的平均值,因此根据
的连续性,它收敛于
(你可以用

来严格证明这一点,并减去积分并应用积分的三角不等式)。
现在引理的表达式在
和
中是完全对称的,这就是克莱罗定理成立的原因。