我们将从一点 *p* 的导数的单变量定义开始,即

让我们将上面的公式改为等价形式

这是在将 f'(p) 提到里面并将它放在一个共同分母上之后得到的。
我们不能除以向量,所以这个定义不能立即扩展到多变量情况。尽管如此,我们不必这样做:我们感兴趣的是两个小距离(大小)的商,而不是它们的其他性质(如符号)。值得注意的是,被忽略的向量的“其他”属性是它的方向。现在我们可以除以向量的绝对值,所以让我们用绝对值来重写这个定义

上面公式的另一种形式是,令
我们有
,并且如果
,那么
,所以
,
其中
可以被认为是一个“微小变化”。
那么,我们如何在多变量情况下使用这个定义呢?
如果我们将所有变量都切换到向量,并将常量(它在单维中执行线性映射)替换为矩阵(它也表示线性映射),我们得到

或

如果此极限对于某个 f : Rm → Rn 存在,并且存在一个线性映射 A : Rm → Rn(用 m×n 矩阵 A 表示),我们将此映射称为导数,并将其记为 Dp f。
关于术语的一点说明 - 在指代求导操作(得到线性映射 A)时,我们写 Dp f,但在指代矩阵 A 本身时,它被称为雅可比矩阵,也记为 Jp f。关于雅可比矩阵的更多内容将在后面介绍。
这种导数公式有许多重要的性质。
如果 f 在 p 处可微,对于接近 p 的 x,|f(x)-(f(p)+A(x-p))| 相对于 |x-p| 很小,这意味着 f(x) 近似等于 f(p)+A(x-p)。
当 g(x) 是线性且 c 是常数时,我们将形如 g(x)+c 的表达式称为仿射表达式。f(p)+A(x-p) 是 f(x) 的仿射近似。
函数的雅可比矩阵形式为

对于 f : Rm → Rn,Jp f 是一个 n×m 矩阵。
因此,如果 f 在 p 处可微,则 f 在 p 处的所有偏导数都存在。
然而,一个函数的所有偏导数可能在一个点处存在,而该函数在该点处不可微,因此,在类似于上述情况的情况下,不要混淆导数(线性映射)和雅可比矩阵(矩阵)非常重要。
此外,如果所有偏导数都存在,并且在点 p 的某个邻域内是连续的,那么 f 在 p 处是可微的。这意味着对于一个函数 f,其分量函数由连续函数构成(例如有理函数、可微函数或其他函数),f 在 f 定义的任何地方都是可微的。
对于一个在 p 处可微的函数,其所有偏导数都存在并且在 p 的某个邻域内是连续的,我们使用术语“连续可微”。