多元微积分 — 从高中数学到代数几何

一元函数 $y=f(x)$ 描述一条曲线；当变量变成两个、三个、$n$ 个时——比如温度场 $T(x,y,z,t)$、神经网络的损失 $L(\theta_1,\ldots,\theta_N)$——我们走进多元微积分的世界。它的核心仍然是导数与积分，只是导数升级成了"方向导数 / 梯度 / Jacobian"，积分升级成了"多重积分"。

一元微分讲"切线"，多元微分讲"切平面、切空间、切映射"。从这一章起，"导数"将不再是一个数，而是一个线性映射。

1. 偏导数（Partial Derivatives）

偏导数 设 $f: \mathbb{R}^n \to \mathbb{R}$，在点 $\mathbf{a}=(a_1,\ldots,a_n)$ 处，关于第 $i$ 个变量的偏导数定义为 $$\frac{\partial f}{\partial x_i}(\mathbf{a}) = \lim_{h\to 0}\frac{f(a_1,\ldots,a_i+h,\ldots,a_n) - f(\mathbf{a})}{h}$$ 直观：把其它变量当作常数，只对 $x_i$ 求一元导数。几何上是沿第 $i$ 坐标轴方向的瞬时变化率。

例 1：曲面 $z = x^2 + 3xy + y^3$ $\dfrac{\partial z}{\partial x} = 2x + 3y$（把 $y$ 看常数）；$\dfrac{\partial z}{\partial y} = 3x + 3y^2$。在点 $(1,2)$：$\dfrac{\partial z}{\partial x}=8$，$\dfrac{\partial z}{\partial y}=15$。

方向导数与全微分 沿单位向量 $\mathbf{u}$ 的方向导数：$D_\mathbf{u} f(\mathbf{a}) = \lim_{h\to 0}\dfrac{f(\mathbf{a}+h\mathbf{u})-f(\mathbf{a})}{h}$。 若 $f$ 在 $\mathbf{a}$ 处可微，则存在线性映射 $df_\mathbf{a}: \mathbb{R}^n\to\mathbb{R}$ 使得 $$f(\mathbf{a}+\mathbf{h}) = f(\mathbf{a}) + df_\mathbf{a}(\mathbf{h}) + o(\|\mathbf{h}\|)$$ 这个 $df_\mathbf{a}$ 就是新版"导数"——一个从 $\mathbb{R}^n$ 到 $\mathbb{R}$ 的线性映射。

2. 梯度（Gradient）

梯度向量 $f: \mathbb{R}^n\to\mathbb{R}$ 的梯度是把所有偏导数装进一个向量： $$\nabla f = \left(\frac{\partial f}{\partial x_1},\, \frac{\partial f}{\partial x_2},\, \ldots,\, \frac{\partial f}{\partial x_n}\right)$$ 方向导数恰好是梯度与方向的内积：$D_\mathbf{u} f = \langle \nabla f, \mathbf{u}\rangle$。

梯度的两条几何性质 最快上升方向：在所有单位方向 $\mathbf{u}$ 中，$D_\mathbf{u} f = \|\nabla f\|\cos\theta$ 在 $\theta=0$ 时最大；即 $\nabla f$ 指向 $f$ 增长最快的方向，最大变化率为 $\|\nabla f\|$。 正交于等高线/等位面：在 $f(\mathbf{x})=c$ 的等位面上 $df=0$，故 $\nabla f \perp$ 等位面的切向量。

图解 1：梯度场与等高线（梯度 ⊥ 等高线）

例 2：梯度计算 $f(x,y) = x^2 + 2y^2$。$\nabla f = (2x, 4y)$。在 $(1,1)$ 处 $\nabla f = (2,4)$，模长 $\sqrt{20}\approx 4.47$；最快上升方向是 $(1,2)/\sqrt 5$。 验证正交性：$f=3$ 的等高线 $x^2+2y^2=3$ 在 $(1,1)$ 的切向量 $\propto (-4,2)$（对椭圆方程隐式求导得到），与 $(2,4)$ 内积 $= -8+8 = 0$ ✓ 正交。

3. Jacobian 矩阵——多元映射的导数

Jacobian 矩阵 设 $F: \mathbb{R}^n \to \mathbb{R}^m$，$F(\mathbf{x}) = (f_1(\mathbf{x}),\ldots,f_m(\mathbf{x}))$。$F$ 在点 $\mathbf{a}$ 处的Jacobian 矩阵是 $m\times n$ 矩阵 $$J_F(\mathbf{a}) = \begin{pmatrix} \dfrac{\partial f_1}{\partial x_1} & \cdots & \dfrac{\partial f_1}{\partial x_n} \\ \vdots & \ddots & \vdots \\ \dfrac{\partial f_m}{\partial x_1} & \cdots & \dfrac{\partial f_m}{\partial x_n} \end{pmatrix}\Bigg|_\mathbf{a}$$ 它是 $F$ 在 $\mathbf{a}$ 处的切映射 / 全导数：$F(\mathbf{a}+\mathbf{h}) \approx F(\mathbf{a}) + J_F(\mathbf{a})\,\mathbf{h}$。

当 $n=m$：行列式 = 局部体积缩放因子 当 $F: \mathbb{R}^n \to \mathbb{R}^n$，$|\det J_F(\mathbf{a})|$ 度量 $F$ 在 $\mathbf{a}$ 附近把"小盒子"的体积放大或缩小的倍数；其符号给出"是否保定向"。 这是变量代换公式 $\displaystyle \int_{F(D)} f\,dV = \int_D (f\circ F)\,|\det J_F|\,dV$ 中 $|\det J_F|$ 出现的根本原因。

图解 2：Jacobian = 局部线性近似 = 切映射

例 3：极坐标变换 $F(r,\theta) = (r\cos\theta,\, r\sin\theta)$。 $$J_F = \begin{pmatrix}\cos\theta & -r\sin\theta\\ \sin\theta & r\cos\theta\end{pmatrix},\qquad \det J_F = r$$ 所以 $dx\,dy = r\,dr\,d\theta$——这就是极坐标二重积分公式中"$r$"的来源。

4. 多元链式法则

链式法则的矩阵形式 若 $F: \mathbb{R}^n\to\mathbb{R}^m$、$G: \mathbb{R}^m\to\mathbb{R}^k$ 都可微，则 $G\circ F$ 在 $\mathbf{a}$ 处可微，且 $$J_{G\circ F}(\mathbf{a}) = J_G(F(\mathbf{a}))\cdot J_F(\mathbf{a})$$ "复合映射的导数 = 矩阵相乘"——一元 $(g\circ f)' = g'(f(x))\cdot f'(x)$ 的多元升级。

例 4：神经网络的反向传播 一个三层网络 $\mathbf{h_1}=W_1\mathbf{x}, \mathbf{h_2}=\sigma(\mathbf{h_1}), L=\ell(W_2\mathbf{h_2})$。损失对 $W_1$ 的梯度由链式法则连乘得到——这正是 PyTorch 的 backward() 在做的事。

5. 多重积分

二重积分 设 $f: D\subseteq\mathbb{R}^2 \to \mathbb{R}$ 在闭有界区域 $D$ 上连续。把 $D$ 分成 $n$ 个小块 $D_i$，面积为 $\Delta A_i$，任取点 $(x_i^*, y_i^*)\in D_i$，定义 $$\iint_D f(x,y)\,dA = \lim_{\max\mathrm{diam}(D_i)\to 0}\sum_{i=1}^n f(x_i^*, y_i^*)\,\Delta A_i$$ 几何意义：当 $f\ge 0$ 时，它等于曲面 $z = f(x,y)$ 与 $xy$ 平面之间在 $D$ 上方的体积。

Fubini 定理（化为累次积分） 若 $D = \{(x,y): a\le x\le b,\, g_1(x)\le y\le g_2(x)\}$，则 $$\iint_D f\,dA = \int_a^b\!\!\int_{g_1(x)}^{g_2(x)} f(x,y)\,dy\,dx$$ 把二维积分变成两次一维积分。三重及更高维积分类似。

图解 3：二重积分 $\iint_D f\,dA$ = 曲面下方的体积

例 5：用极坐标算高斯积分 大名鼎鼎的 $\int_{-\infty}^{\infty} e^{-x^2}\,dx = \sqrt\pi$ 的最优雅证明： $$I^2 = \iint_{\mathbb{R}^2} e^{-(x^2+y^2)}\,dA = \int_0^{2\pi}\!\!\int_0^\infty e^{-r^2}\,r\,dr\,d\theta = 2\pi\cdot\tfrac 1 2 = \pi$$ 所以 $I = \sqrt\pi$。极坐标 + Jacobian = $r$ 是核心。

6. 隐函数定理（多元版）

隐函数定理 设 $F: \mathbb{R}^{n+m}\to\mathbb{R}^m$ 是 $C^1$ 的，把变量分为 $\mathbf{x}\in\mathbb{R}^n$、$\mathbf{y}\in\mathbb{R}^m$。在点 $(\mathbf{a},\mathbf{b})$ 处 $F(\mathbf{a},\mathbf{b})=0$，且对 $\mathbf{y}$ 的偏 Jacobian $\dfrac{\partial F}{\partial \mathbf{y}}(\mathbf{a},\mathbf{b})$ 是 $m\times m$ 满秩（即可逆）矩阵。 则在 $\mathbf{a}$ 的某邻域上存在唯一的 $C^1$ 函数 $\mathbf{y} = \varphi(\mathbf{x})$ 满足 $\varphi(\mathbf{a})=\mathbf{b}$、$F(\mathbf{x},\varphi(\mathbf{x}))=0$；且 $$J_\varphi(\mathbf{a}) = -\left(\tfrac{\partial F}{\partial\mathbf{y}}\right)^{-1}\!\tfrac{\partial F}{\partial\mathbf{x}}\Big|_{(\mathbf{a},\mathbf{b})}$$ 直观：满秩条件 ⟹ 方程组 $F(\mathbf{x},\mathbf{y})=0$ 局部上把 $\mathbf{y}$ "解"成 $\mathbf{x}$ 的函数。

例 6：圆方程上的隐函数 $F(x,y) = x^2+y^2-1$。在 $(0,1)$ 处 $\partial_y F = 2y = 2\ne 0$，可解 $y = \sqrt{1-x^2}$；在 $(1,0)$ 处 $\partial_y F = 0$（不可逆），此时切线变成竖直，$y$ 不是 $x$ 的函数——但 $\partial_x F=2\ne 0$，反过来可解 $x = \sqrt{1-y^2}$。 哪些点"两个偏导都为 0"？答案是奇异点。圆没有奇点；但 $y^2 = x^2(x+1)$（节点曲线）在原点处 $\nabla F=(0,0)$——隐函数定理失败的地方，正是代数几何要研究的"非光滑点"。

7. 现实世界：登山路线与梯度下降

地形图就是函数 $h(x,y)$ 地图上的等高线 = $h(x,y)=c$；登山者要"用最短的水平距离爬最高高度"——沿梯度方向走。等高线密集区 = 陡坡（梯度模大），稀疏区 = 缓坡（梯度模小）。 把"登山"反过来——把 $h$ 换成损失 $L(\theta)$，把"爬最高"换成"下到最低"——就得到机器学习的核心算法梯度下降： $$\theta_{t+1} = \theta_t - \eta\,\nabla L(\theta_t)$$ 每一步都"沿最速下降方向迈一小步"。$\eta$（学习率）= 步长。深度神经网络 GPT-4、Stable Diffusion 的训练，本质就是在百亿维参数空间上做这件事。

8. 练习

练习 1（偏导与梯度） 设 $f(x,y,z) = x^2 y + y z^2 + e^{xy}$。求 $\nabla f$，并算在 $(1,0,2)$ 处的梯度。 提示 $\partial_x f = 2xy + ye^{xy}$，$\partial_y f = x^2 + z^2 + xe^{xy}$，$\partial_z f = 2yz$。在 $(1,0,2)$：$\nabla f = (0,\, 1+4+1,\, 0) = (0,5,0)$。

练习 2（方向导数最大值） $f(x,y) = x^2 + xy + y^2$。在 $(1,1)$ 处沿哪个单位向量方向 $f$ 增长最快？最大变化率是多少？ 提示 $\nabla f|_{(1,1)} = (2x+y, x+2y) = (3,3)$。最快方向 = $(3,3)/\sqrt{18} = (\tfrac 1{\sqrt 2}, \tfrac 1{\sqrt 2})$；最大变化率 $= \|\nabla f\| = 3\sqrt 2$。

练习 3（Jacobian 与变量代换） 计算映射 $F(u,v) = (u^2-v^2,\, 2uv)$（即复变 $z\mapsto z^2$ 的实化）的 Jacobian 行列式。 提示 $J_F = \begin{pmatrix}2u & -2v\\ 2v & 2u\end{pmatrix}$，$\det = 4u^2+4v^2 = 4(u^2+v^2)$。当 $(u,v)\ne 0$ 时不为 0，但在原点 Jacobian 退化——映射 $z\mapsto z^2$ 在原点 $0$ 处"分支"。

练习 4（二重积分） 计算 $\iint_D xy\,dA$，其中 $D = \{(x,y): 0\le x\le 1,\, 0\le y\le x\}$（三角形）。 提示 $\int_0^1\!\!\int_0^x xy\,dy\,dx = \int_0^1 x\cdot \tfrac{x^2}{2}\,dx = \tfrac 1 2\int_0^1 x^3\,dx = \tfrac 1 8$。

练习 5（隐函数定理） 方程 $x^3 + y^3 - 3xy = 0$（笛卡尔叶形线）。判断在 $(1,1)$、$(0,0)$ 处是否能局部解出 $y=\varphi(x)$？ 提示 $\partial_y F = 3y^2 - 3x$。在 $(1,1)$：$=0$，定理失败（这点切线竖直）；但 $\partial_x F = 3x^2 - 3y = 0$ 也为 0——其实 $(1,1)$ 是该曲线的普通点，但同时 $\partial_x = \partial_y = 0$ 说明......再算一下：$F(1,1)=1+1-3=-1\ne 0$，所以 $(1,1)$ 不在曲线上！正确的验证点：$(0,0)$ 在曲线上，$\partial_x F(0,0) = \partial_y F(0,0) = 0$，是节点奇点，定理失效——曲线在原点自交。

多元微积分（Multivariable Calculus）

📋 前置知识

1. 偏导数（Partial Derivatives）

偏导数

例 1：曲面 $z = x^2 + 3xy + y^3$

方向导数与全微分

2. 梯度（Gradient）

梯度向量

梯度的两条几何性质

图解 1：梯度场与等高线（梯度 ⊥ 等高线）

例 2：梯度计算

3. Jacobian 矩阵——多元映射的导数

Jacobian 矩阵

当 $n=m$：行列式 = 局部体积缩放因子

图解 2：Jacobian = 局部线性近似 = 切映射

例 3：极坐标变换

4. 多元链式法则

链式法则的矩阵形式

例 4：神经网络的反向传播

5. 多重积分

二重积分

Fubini 定理（化为累次积分）

图解 3：二重积分 $\iint_D f\,dA$ = 曲面下方的体积

例 5：用极坐标算高斯积分

6. 隐函数定理（多元版）

隐函数定理

例 6：圆方程上的隐函数

7. 现实世界：登山路线与梯度下降

地形图就是函数 $h(x,y)$

8. 练习

练习 1（偏导与梯度）

练习 2（方向导数最大值）

练习 3（Jacobian 与变量代换）

练习 4（二重积分）

练习 5（隐函数定理）