- 定理
令  为一个函数,并令
 为一个函数,并令  为另一个函数。假设
 为另一个函数。假设  在
 在  处可微,且
 处可微,且  在
 在  处可微。
 处可微。
那么,  在
 在  处可微,并且
 处可微,并且
 
- 证明
我们证明  是
 是  的一个有效的微分,从而证明可微性。
 的一个有效的微分,从而证明可微性。
我们首先注意到,根据三角不等式的第二个结论,有
![{\displaystyle \left|{\frac {{\big \|}g(x_{0}+\mathbf {h} )-g(x_{0}){\big \|}}{\|\mathbf {h} \|}}-{\frac {\|g'(x_{0})\mathbf {h} \|}{\|\mathbf {h} \|}}\right|\leq {\frac {{\Big \|}g(x_{0}+\mathbf {h} )-{\big [}g(x_{0})+g'(x_{0})\mathbf {h} {\big ]}{\Big \|}}{\|\mathbf {h} \|}}\to 0,\mathbf {h} \to 0}](https://wikimedia.org/api/rest_v1/media/math/render/svg/649b1a0f80fb77c6dcab734b6767b4bab25d3cca) 
因此,
 
意味着
 
其中  是
 是  的矩阵。
 的矩阵。
现在,我们根据三角不等式注意到,
![{\displaystyle {\begin{aligned}&{\frac {{\Big \|}(f\circ g)(x_{0}+\mathbf {h} )-{\big [}(f\circ g)(x_{0})+f'{\big (}g(x_{0}){\big )}g'(x_{0})\mathbf {h} {\big ]}{\Big \|}}{\|\mathbf {h} \|}}\\&\leq {\frac {{\bigg \|}f{\big (}g(x_{0}+h){\big )}-{\Big [}f{\big (}g(x_{0}){\big )}+f'{\big (}g(x_{0}){\big )}{\big [}g(x_{0}+h)-g(x_{0}){\big ]}{\Big ]}{\bigg \|}}{\|\mathbf {h} \|}}\\&+{\frac {{\bigg \|}f{\big (}g(x_{0}){\big )}+f'{\big (}g(x_{0}){\big )}{\big [}g(x_{0}+h)-g(x_{0}){\big ]}-{\Big [}(f\circ g)(x_{0})+f'{\big (}g(x_{0}){\big )}g'(x_{0})\mathbf {h} {\Big ]}{\bigg \|}}{\|\mathbf {h} \|}}\end{aligned}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/16ce647fd32a46ef5d5688739801c75e3029fe38) 
我们将首先处理第一个加数,它更难,但也不算太难。我们把它改写成
![{\displaystyle {\frac {{\bigg \|}f{\big (}g(x_{0}+h){\big )}-{\Big [}f{\big (}g(x_{0}){\big )}+f'{\big (}g(x_{0}){\big )}{\big [}g(x_{0}+h)-g(x_{0}){\big ]}{\Big ]}{\bigg \|}}{{\big \|}g(x_{0}+h)-g(x_{0}){\big \|}}}\cdot {\frac {{\big \|}g(x_{0}+h)-g(x_{0}){\big \|}}{\|\mathbf {h} \|}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/edb0ec6f4222e1eb7a2923631dea418a272622cd) 
后一个因子由于上述考虑是有界的,而第一个因子当  (因此
(因此  ,由于相同的界限(乘以
,由于相同的界限(乘以  );实际上,可微性意味着连续性)。
);实际上,可微性意味着连续性)。
现在对于第二个加数,它通过简单的消去和微分的线性性,等于
![{\displaystyle {\frac {{\bigg \|}f'{\big (}g(x_{0}){\big )}{\Big [}{\big [}g(x_{0}+h)-g(x_{0}){\big ]}-g'(x_{0})\mathbf {h} {\Big ]}{\bigg \|}}{\|\mathbf {h} \|}}\leq mn\max _{1\leq i\leq l \atop 1\leq j\leq n}|b_{i,j}|{\frac {{\Big \|}{\big [}g(x_{0}+h)-g(x_{0}){\big ]}-g'(x_{0})\mathbf {h} {\Big \|}}{\|\mathbf {h} \|}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/a6fd36c73a73df330c8ef7878d78245f420ace2d) 
其中  是
 是  微分的矩阵。由于
 微分的矩阵。由于  微分的定义,当
 微分的定义,当  时,它趋向于 0。
 时,它趋向于 0。
我们将要介绍的链式法则的第一个应用与一个称为梯度的东西有关,它被定义为函数  ,即图像是一维的(在特殊情况下
,即图像是一维的(在特殊情况下  ,这些函数看起来像平面上
,这些函数看起来像平面上  上的函数的“山脉”)。
 上的函数的“山脉”)。
- 定义
令  是可微的。然后,列向量
 是可微的。然后,列向量
 
称为梯度。
定理:
令  是两个在
 是两个在  处完全可微的函数。由于它们都映射到
 处完全可微的函数。由于它们都映射到  ,它们的乘积是定义的,我们有
,它们的乘积是定义的,我们有
 
证明:
现在,人们可以直接从梯度的定义和通常的一维乘积规则(实际上它不需要完全可微性)来计算这一点,但有一个使用链式法则的巧妙技巧,我在 Terence Tao 的讲义中找到了它,我的数学部分的重复是基于它的。
我们简单定义  和
 和  。那么函数
。那么函数  等于
 等于  。现在,
。现在, 的微分由雅可比矩阵给出
 的微分由雅可比矩阵给出
 
而  的微分由雅可比矩阵给出
 的微分由雅可比矩阵给出
 
因此,乘积法则意味着  在
 在  处的微分由下式给出
 处的微分由下式给出
 
从梯度的定义我们可以看到,微分只不过是梯度的转置(反之亦然,因为转置是幂等的)。
现在我们将使用链式法则将一维中的一个众所周知的定理,即中值定理,推广到多个维度。
定理:
设 在
 在  上可微,并设
 上可微,并设 。则存在
。则存在![{\displaystyle t\in [0,1]}](https://wikimedia.org/api/rest_v1/media/math/render/svg/31a5c18739ff04858eecc8fec2f53912c348e0e5) 使得
 使得
 
其中 是
 是  上的标准内积。
 上的标准内积。
证明:
实际上,这是一个对链式法则的直接应用。
我们设定
 
因此 且
 且  。根据一维中值定理,
。根据一维中值定理,
 
对于合适的![{\displaystyle t\in [0,1]}](https://wikimedia.org/api/rest_v1/media/math/render/svg/31a5c18739ff04858eecc8fec2f53912c348e0e5) 。现在根据链式法则,
。现在根据链式法则,
 . . 
下一个定理表明,只要所考虑的函数具有足够的可微性,那么微分的顺序就不重要。在证明过程中,我们不需要使用一般链式法则或其任何推论,但我们会使用一维中值定理。
定理(克莱罗定理):
设 是一元函数,其偏导数直到二阶导数都存在且连续。则
 是一元函数,其偏导数直到二阶导数都存在且连续。则
 . .
 
证明:
我们从以下引理开始
引理:
 
证明: 我们首先应用微积分基本定理,得到上述极限等于
 
使用换元积分和积分的线性性,我们可以将其改写为
 
现在我们应用单变量中的中值定理得到
 
对于一个合适的 ![{\displaystyle t_{\delta }\in [0,\delta ]}](https://wikimedia.org/api/rest_v1/media/math/render/svg/dac7ec1c515c862ee34af2ea5d1011f986b0e187) 。因此,上述极限等于
。因此,上述极限等于
 
这是在  的某个子集上对
 的某个子集上对  的平均值,因此根据
 的平均值,因此根据  的连续性,它收敛于
 的连续性,它收敛于  (你可以用
(你可以用
 
来严格证明这一点,并减去积分并应用积分的三角不等式)。
现在引理的表达式在  和
 和  中是完全对称的,这就是克莱罗定理成立的原因。
 中是完全对称的,这就是克莱罗定理成立的原因。