多元微积分(Multivariable Calculus)

阶段1 · 微积分 · 第10章 | 预计学习时间: 4小时 | 难度: 🟢 基础

📋 前置知识

一元函数 $y=f(x)$ 描述一条曲线;当变量变成两个、三个、$n$ 个时——比如温度场 $T(x,y,z,t)$、神经网络的损失 $L(\theta_1,\ldots,\theta_N)$——我们走进多元微积分的世界。它的核心仍然是导数与积分,只是导数升级成了"方向导数 / 梯度 / Jacobian",积分升级成了"多重积分"。

一元微分讲"切线",多元微分讲"切平面、切空间、切映射"。从这一章起,"导数"将不再是一个数,而是一个线性映射

1. 偏导数(Partial Derivatives)

偏导数

设 $f: \mathbb{R}^n \to \mathbb{R}$,在点 $\mathbf{a}=(a_1,\ldots,a_n)$ 处,关于第 $i$ 个变量的偏导数定义为

$$\frac{\partial f}{\partial x_i}(\mathbf{a}) = \lim_{h\to 0}\frac{f(a_1,\ldots,a_i+h,\ldots,a_n) - f(\mathbf{a})}{h}$$

直观:把其它变量当作常数,只对 $x_i$ 求一元导数。几何上是沿第 $i$ 坐标轴方向的瞬时变化率。

例 1:曲面 $z = x^2 + 3xy + y^3$

$\dfrac{\partial z}{\partial x} = 2x + 3y$(把 $y$ 看常数);$\dfrac{\partial z}{\partial y} = 3x + 3y^2$。在点 $(1,2)$:$\dfrac{\partial z}{\partial x}=8$,$\dfrac{\partial z}{\partial y}=15$。

方向导数与全微分

沿单位向量 $\mathbf{u}$ 的方向导数:$D_\mathbf{u} f(\mathbf{a}) = \lim_{h\to 0}\dfrac{f(\mathbf{a}+h\mathbf{u})-f(\mathbf{a})}{h}$。

若 $f$ 在 $\mathbf{a}$ 处可微,则存在线性映射 $df_\mathbf{a}: \mathbb{R}^n\to\mathbb{R}$ 使得

$$f(\mathbf{a}+\mathbf{h}) = f(\mathbf{a}) + df_\mathbf{a}(\mathbf{h}) + o(\|\mathbf{h}\|)$$

这个 $df_\mathbf{a}$ 就是新版"导数"——一个从 $\mathbb{R}^n$ 到 $\mathbb{R}$ 的线性映射

2. 梯度(Gradient)

梯度向量

$f: \mathbb{R}^n\to\mathbb{R}$ 的梯度是把所有偏导数装进一个向量:

$$\nabla f = \left(\frac{\partial f}{\partial x_1},\, \frac{\partial f}{\partial x_2},\, \ldots,\, \frac{\partial f}{\partial x_n}\right)$$

方向导数恰好是梯度与方向的内积:$D_\mathbf{u} f = \langle \nabla f, \mathbf{u}\rangle$。

梯度的两条几何性质

  1. 最快上升方向:在所有单位方向 $\mathbf{u}$ 中,$D_\mathbf{u} f = \|\nabla f\|\cos\theta$ 在 $\theta=0$ 时最大;即 $\nabla f$ 指向 $f$ 增长最快的方向,最大变化率为 $\|\nabla f\|$。
  2. 正交于等高线/等位面:在 $f(\mathbf{x})=c$ 的等位面上 $df=0$,故 $\nabla f \perp$ 等位面的切向量。

图解 1:梯度场与等高线(梯度 ⊥ 等高线)

$\textcolor{3a7bc8}{f=1}$
$\textcolor{3a7bc8}{f=2}$
$\textcolor{3a7bc8}{f=3}$
$\textcolor{3a7bc8}{f=4}$
$\textcolor{3a7bc8}{f=5}$
极大值
梯度 $\textcolor{2c3e50}{\nabla f}$(橙色箭头)始终垂直于等高线(蓝色),并指向 $\textcolor{2c3e50}{f}$ 增大的方向
📍 等高线越密集 ⟹ 梯度模 $\textcolor{5d6d7e}{\|\nabla f\|}$ 越大 ⟹ 箭头越长("地形越陡")
🏔️ 这正是地形等高线图——沿梯度走,是登顶最陡也最快的路线

例 2:梯度计算

$f(x,y) = x^2 + 2y^2$。$\nabla f = (2x, 4y)$。在 $(1,1)$ 处 $\nabla f = (2,4)$,模长 $\sqrt{20}\approx 4.47$;最快上升方向是 $(1,2)/\sqrt 5$。

验证正交性:$f=3$ 的等高线 $x^2+2y^2=3$ 在 $(1,1)$ 的切向量 $\propto (-4,2)$(对椭圆方程隐式求导得到),与 $(2,4)$ 内积 $= -8+8 = 0$ ✓ 正交。

3. Jacobian 矩阵——多元映射的导数

Jacobian 矩阵

设 $F: \mathbb{R}^n \to \mathbb{R}^m$,$F(\mathbf{x}) = (f_1(\mathbf{x}),\ldots,f_m(\mathbf{x}))$。$F$ 在点 $\mathbf{a}$ 处的Jacobian 矩阵是 $m\times n$ 矩阵

$$J_F(\mathbf{a}) = \begin{pmatrix} \dfrac{\partial f_1}{\partial x_1} & \cdots & \dfrac{\partial f_1}{\partial x_n} \\ \vdots & \ddots & \vdots \\ \dfrac{\partial f_m}{\partial x_1} & \cdots & \dfrac{\partial f_m}{\partial x_n} \end{pmatrix}\Bigg|_\mathbf{a}$$

它是 $F$ 在 $\mathbf{a}$ 处的切映射 / 全导数:$F(\mathbf{a}+\mathbf{h}) \approx F(\mathbf{a}) + J_F(\mathbf{a})\,\mathbf{h}$。

当 $n=m$:行列式 = 局部体积缩放因子

当 $F: \mathbb{R}^n \to \mathbb{R}^n$,$|\det J_F(\mathbf{a})|$ 度量 $F$ 在 $\mathbf{a}$ 附近把"小盒子"的体积放大或缩小的倍数;其符号给出"是否保定向"。

这是变量代换公式 $\displaystyle \int_{F(D)} f\,dV = \int_D (f\circ F)\,|\det J_F|\,dV$ 中 $|\det J_F|$ 出现的根本原因。

图解 2:Jacobian = 局部线性近似 = 切映射

原空间 $\textcolor{2c3e50}{\mathbb{R}^2}$ 中的小正方形网格
$\textcolor{e74c3c}{\mathbf{a}}$
"基本盒"= 单位正方形 $\textcolor{5d6d7e}{[0,1]^2}$
$\textcolor{3a7bc8}{F}$
切映射 $\textcolor{3a7bc8}{J_F(\mathbf{a})}$
$\textcolor{2c3e50}{\mathbb{R}^2}$ 中的像:变形后的平行四边形网格
$\textcolor{e74c3c}{F(\mathbf{a})}$
"基本盒"被映成平行四边形,面积比 = $\textcolor{5d6d7e}{|\det J_F(\mathbf{a})|}$

例 3:极坐标变换

$F(r,\theta) = (r\cos\theta,\, r\sin\theta)$。

$$J_F = \begin{pmatrix}\cos\theta & -r\sin\theta\\ \sin\theta & r\cos\theta\end{pmatrix},\qquad \det J_F = r$$

所以 $dx\,dy = r\,dr\,d\theta$——这就是极坐标二重积分公式中"$r$"的来源。

4. 多元链式法则

链式法则的矩阵形式

若 $F: \mathbb{R}^n\to\mathbb{R}^m$、$G: \mathbb{R}^m\to\mathbb{R}^k$ 都可微,则 $G\circ F$ 在 $\mathbf{a}$ 处可微,且

$$J_{G\circ F}(\mathbf{a}) = J_G(F(\mathbf{a}))\cdot J_F(\mathbf{a})$$

"复合映射的导数 = 矩阵相乘"——一元 $(g\circ f)' = g'(f(x))\cdot f'(x)$ 的多元升级。

例 4:神经网络的反向传播

一个三层网络 $\mathbf{h_1}=W_1\mathbf{x}, \mathbf{h_2}=\sigma(\mathbf{h_1}), L=\ell(W_2\mathbf{h_2})$。损失对 $W_1$ 的梯度由链式法则连乘得到——这正是 PyTorch 的 backward() 在做的事。

5. 多重积分

二重积分

设 $f: D\subseteq\mathbb{R}^2 \to \mathbb{R}$ 在闭有界区域 $D$ 上连续。把 $D$ 分成 $n$ 个小块 $D_i$,面积为 $\Delta A_i$,任取点 $(x_i^*, y_i^*)\in D_i$,定义

$$\iint_D f(x,y)\,dA = \lim_{\max\mathrm{diam}(D_i)\to 0}\sum_{i=1}^n f(x_i^*, y_i^*)\,\Delta A_i$$

几何意义:当 $f\ge 0$ 时,它等于曲面 $z = f(x,y)$ 与 $xy$ 平面之间在 $D$ 上方的体积

Fubini 定理(化为累次积分)

若 $D = \{(x,y): a\le x\le b,\, g_1(x)\le y\le g_2(x)\}$,则

$$\iint_D f\,dA = \int_a^b\!\!\int_{g_1(x)}^{g_2(x)} f(x,y)\,dy\,dx$$

把二维积分变成两次一维积分。三重及更高维积分类似。

图解 3:二重积分 $\iint_D f\,dA$ = 曲面下方的体积

$\textcolor{2c3e50}{x}$
$\textcolor{2c3e50}{y}$
$\textcolor{2c3e50}{z}$
$\textcolor{3a7bc8}{D}$
曲面 $\textcolor{e67e22}{z = f(x,y)}$
体积 $\textcolor{3a7bc8}{V = \iint_D f\,dA}$
微元体积 $\textcolor{e67e22}{f(x,y)\,dA}$
把 $\textcolor{2c3e50}{D}$ 切碎为小块 $\textcolor{2c3e50}{\Delta A}$,每块上立起高度 $\textcolor{2c3e50}{f(x,y)}$ 的小柱;所有小柱体积之和 → 二重积分
$\textcolor{3a7bc8}{\displaystyle \iint_D f(x,y)\,dA = \int\!\!\int f \cdot \text{(小块面积)}}$

例 5:用极坐标算高斯积分

大名鼎鼎的 $\int_{-\infty}^{\infty} e^{-x^2}\,dx = \sqrt\pi$ 的最优雅证明:

$$I^2 = \iint_{\mathbb{R}^2} e^{-(x^2+y^2)}\,dA = \int_0^{2\pi}\!\!\int_0^\infty e^{-r^2}\,r\,dr\,d\theta = 2\pi\cdot\tfrac 1 2 = \pi$$

所以 $I = \sqrt\pi$。极坐标 + Jacobian = $r$ 是核心。

6. 隐函数定理(多元版)

隐函数定理

设 $F: \mathbb{R}^{n+m}\to\mathbb{R}^m$ 是 $C^1$ 的,把变量分为 $\mathbf{x}\in\mathbb{R}^n$、$\mathbf{y}\in\mathbb{R}^m$。在点 $(\mathbf{a},\mathbf{b})$ 处 $F(\mathbf{a},\mathbf{b})=0$,且对 $\mathbf{y}$ 的偏 Jacobian $\dfrac{\partial F}{\partial \mathbf{y}}(\mathbf{a},\mathbf{b})$ 是 $m\times m$ 满秩(即可逆)矩阵。

则在 $\mathbf{a}$ 的某邻域上存在唯一的 $C^1$ 函数 $\mathbf{y} = \varphi(\mathbf{x})$ 满足 $\varphi(\mathbf{a})=\mathbf{b}$、$F(\mathbf{x},\varphi(\mathbf{x}))=0$;且

$$J_\varphi(\mathbf{a}) = -\left(\tfrac{\partial F}{\partial\mathbf{y}}\right)^{-1}\!\tfrac{\partial F}{\partial\mathbf{x}}\Big|_{(\mathbf{a},\mathbf{b})}$$

直观:满秩条件 ⟹ 方程组 $F(\mathbf{x},\mathbf{y})=0$ 局部上把 $\mathbf{y}$ "解"成 $\mathbf{x}$ 的函数。

例 6:圆方程上的隐函数

$F(x,y) = x^2+y^2-1$。在 $(0,1)$ 处 $\partial_y F = 2y = 2\ne 0$,可解 $y = \sqrt{1-x^2}$;在 $(1,0)$ 处 $\partial_y F = 0$(不可逆),此时切线变成竖直,$y$ 不是 $x$ 的函数——但 $\partial_x F=2\ne 0$,反过来可解 $x = \sqrt{1-y^2}$。

哪些点"两个偏导都为 0"?答案是奇异点。圆没有奇点;但 $y^2 = x^2(x+1)$(节点曲线)在原点处 $\nabla F=(0,0)$——隐函数定理失败的地方,正是代数几何要研究的"非光滑点"。

7. 现实世界:登山路线与梯度下降

地形图就是函数 $h(x,y)$

地图上的等高线 = $h(x,y)=c$;登山者要"用最短的水平距离爬最高高度"——沿梯度方向走。等高线密集区 = 陡坡(梯度模大),稀疏区 = 缓坡(梯度模小)。

把"登山"反过来——把 $h$ 换成损失 $L(\theta)$,把"爬最高"换成"下到最低"——就得到机器学习的核心算法梯度下降

$$\theta_{t+1} = \theta_t - \eta\,\nabla L(\theta_t)$$

每一步都"沿最速下降方向迈一小步"。$\eta$(学习率)= 步长。深度神经网络 GPT-4、Stable Diffusion 的训练,本质就是在百亿维参数空间上做这件事。

8. 练习

练习 1(偏导与梯度)

设 $f(x,y,z) = x^2 y + y z^2 + e^{xy}$。求 $\nabla f$,并算在 $(1,0,2)$ 处的梯度。

提示

$\partial_x f = 2xy + ye^{xy}$,$\partial_y f = x^2 + z^2 + xe^{xy}$,$\partial_z f = 2yz$。在 $(1,0,2)$:$\nabla f = (0,\, 1+4+1,\, 0) = (0,5,0)$。

练习 2(方向导数最大值)

$f(x,y) = x^2 + xy + y^2$。在 $(1,1)$ 处沿哪个单位向量方向 $f$ 增长最快?最大变化率是多少?

提示

$\nabla f|_{(1,1)} = (2x+y, x+2y) = (3,3)$。最快方向 = $(3,3)/\sqrt{18} = (\tfrac 1{\sqrt 2}, \tfrac 1{\sqrt 2})$;最大变化率 $= \|\nabla f\| = 3\sqrt 2$。

练习 3(Jacobian 与变量代换)

计算映射 $F(u,v) = (u^2-v^2,\, 2uv)$(即复变 $z\mapsto z^2$ 的实化)的 Jacobian 行列式。

提示

$J_F = \begin{pmatrix}2u & -2v\\ 2v & 2u\end{pmatrix}$,$\det = 4u^2+4v^2 = 4(u^2+v^2)$。当 $(u,v)\ne 0$ 时不为 0,但在原点 Jacobian 退化——映射 $z\mapsto z^2$ 在原点 $0$ 处"分支"。

练习 4(二重积分)

计算 $\iint_D xy\,dA$,其中 $D = \{(x,y): 0\le x\le 1,\, 0\le y\le x\}$(三角形)。

提示

$\int_0^1\!\!\int_0^x xy\,dy\,dx = \int_0^1 x\cdot \tfrac{x^2}{2}\,dx = \tfrac 1 2\int_0^1 x^3\,dx = \tfrac 1 8$。

练习 5(隐函数定理)

方程 $x^3 + y^3 - 3xy = 0$(笛卡尔叶形线)。判断在 $(1,1)$、$(0,0)$ 处是否能局部解出 $y=\varphi(x)$?

提示

$\partial_y F = 3y^2 - 3x$。在 $(1,1)$:$=0$,定理失败(这点切线竖直);但 $\partial_x F = 3x^2 - 3y = 0$ 也为 0——其实 $(1,1)$ 是该曲线的普通点,但同时 $\partial_x = \partial_y = 0$ 说明......再算一下:$F(1,1)=1+1-3=-1\ne 0$,所以 $(1,1)$ 不在曲线上!正确的验证点:$(0,0)$ 在曲线上,$\partial_x F(0,0) = \partial_y F(0,0) = 0$,是节点奇点,定理失效——曲线在原点自交。