训练一个深度神经网络,本质上是在做一件事:在高维参数空间里,寻找一个使损失函数 $L(\theta)$ 尽可能小的点 $\theta^*$。这片"参数空间 + 损失高度"构成的曲面就叫 损失景观(Loss Landscape)——它是 DL 一切训练动力学的几何舞台。
想象你被空投到一片未知山地,眼睛蒙着布,只能用脚感受脚下的坡度。你的目标是走到海拔最低的山谷。这就是 梯度下降;山地的等高线、山峰、鞍口、平原——就是损失景观的几何特征。
1. 损失景观:曲面、等高线与梯度
损失景观(Loss Landscape)
神经网络参数 $\theta \in \mathbb{R}^d$($d$ 通常达 $10^6 \sim 10^{12}$),训练数据 $\mathcal{D} = \{(x_i, y_i)\}$。损失函数 $$ L: \mathbb{R}^d \to \mathbb{R}, \qquad L(\theta) = \frac{1}{N} \sum_{i=1}^N \ell\bigl(f_\theta(x_i), y_i\bigr). $$ 其图像 $\Gamma = \{(\theta, L(\theta)) : \theta \in \mathbb{R}^d\} \subset \mathbb{R}^{d+1}$ 即"损失景观"。
梯度 $\nabla L$ 给出最陡上升方向;梯度下降沿 $-\nabla L$ 滑动: $$ \theta_{t+1} = \theta_t - \eta \nabla L(\theta_t). $$
SVG · 损失曲面的 3D 透视(含等高线投影)
高维实战中,鞍点远比极小值常见($d$ 越大,所有方向都是极小的概率越低)—— 这是 Dauphin et al. 2014 的关键观察。
2. 临界点的代数分类:Hessian 与 Morse 理论
临界点(Critical Point)
点 $\theta_0$ 称为损失函数 $L$ 的临界点,当且仅当 $\nabla L(\theta_0) = 0$。临界点集合 $$ \mathrm{Crit}(L) := \{\theta : \partial_1 L = \cdots = \partial_d L = 0\} $$ 是 $\mathbb{R}^d$ 中由 $d$ 个方程定义的仿射簇(algebraic variety)!
换句话说,所有梯度下降的"驻点",恰好是一组多项式方程的零点集——这是 DL 与代数几何的第一个明确接口。
Hessian 谱分类(Morse 引理初步)
设 $H = \nabla^2 L(\theta_0)$ 是临界点处的 Hessian(对称 $d \times d$ 矩阵),其特征值为 $\lambda_1, \lambda_2, \ldots, \lambda_d$。则按符号分布对临界点分类:
- 局部极小:$\lambda_i > 0$($\forall i$)—— $H$ 正定
- 局部极大:$\lambda_i < 0$($\forall i$)—— $H$ 负定
- 鞍点:$\lambda_i$ 有正有负
- 退化临界点:存在 $\lambda_i = 0$ —— 这是奇点,Morse 理论失效,需要奇异学习理论(下一章)
SVG · Hessian 特征值的几何分类
关键代数视角:临界点的"类型"由 Hessian 矩阵的谱不变量决定,而谱不变量是矩阵的代数函数(特征多项式系数)。整个分类系统是纯代数的。
例 · 二维玩具损失
设 $L(x, y) = x^2 - y^2$。则 $\nabla L = (2x, -2y)$,临界点仅 $(0,0)$;Hessian $$ H = \begin{pmatrix} 2 & 0 \\ 0 & -2 \end{pmatrix},\quad \lambda = 2, -2. $$ 一正一负 → 标准鞍点。这正是 $z = x^2 - y^2$ 的"马鞍面"。
3. Morse 理论的拓扑视角
Morse 理论(Marston Morse, 1925)告诉我们:函数的临界点结构决定了流形的拓扑! 这是 20 世纪最深刻的几何思想之一,也是连接代数几何与拓扑的桥梁。
Morse 引理
设 $\theta_0$ 为非退化临界点(即 Hessian 可逆),其 Morse 指标 $\mu(\theta_0) = $ 负特征值的个数。则在 $\theta_0$ 邻域,可选合适坐标 $u_1, \ldots, u_d$ 使得 $$ L(\theta) = L(\theta_0) - u_1^2 - \cdots - u_\mu^2 + u_{\mu+1}^2 + \cdots + u_d^2. $$
这意味着:非退化临界点的局部几何由 Morse 指标完全确定,与高阶项无关。
在 DL 中,低指标的临界点(小 $\mu$)通常对应"好"局部极小——附近损失低且训练稳定。 Choromanska et al. (2015) 的"球面自旋玻璃模型"显示:随机神经网络中,低指标临界点的损失值集中在一个狭窄区间,构成"训练宜居带"。
4. 临界点的连通性与"模式连接"
当代 DL 的一个惊人发现(Garipov et al. 2018, Draxler et al. 2018):
大型神经网络中,许多看似独立的"局部极小"实际上由一条几乎水平的弯曲路径连接——这就是模式连接(Mode Connectivity)。
SVG · 临界点连通性图(Mode Connectivity)
这一现象的代数几何解释:神经网络的损失下水平集 $\{L \leq c\}$ 通常是连通簇的并,而非孤立点。这与代数簇的不可约分量理论密切相关(参见 stage5/00 仿射簇)。
5. 损失曲面的代数几何结构
对于一类常见模型,损失景观恰是多项式函数,于是 $\mathrm{Crit}(L)$ 直接是仿射代数簇:
例 · 矩阵分解(线性 autoencoder)
设 $X \in \mathbb{R}^{n \times m}$ 为数据矩阵,模型 $f_\theta(x) = U V^\top x$,参数 $\theta = (U, V)$,平方损失 $$ L(U, V) = \|X - U V^\top X\|_F^2. $$ 这是 $U, V$ 的多项式函数,$\nabla L = 0$ 给出 $$ U V^\top X X^\top - X X^\top = 0 \quad \text{(在 } V \text{ 方向)}. $$ 临界点集是一个仿射代数簇——可用消元理论(Phase 9)求解。
Baldi-Hornik (1989) 证明:所有局部极小都是全局极小,所有其他临界点都是鞍点!这是 DL 损失景观"良性"的最早实例。
过参数化(Overparameterization)的几何含义
当参数数 $d > $ 数据数 $N$ 时(现代 LLM 的常规情形),$\nabla L = 0$ 给出 $d$ 个方程在 $\mathbb{R}^d$ 中的解集,期望维数 $d - d = 0$,但因方程间有线性相关性,实际维数 $\geq d - N \gg 0$:
→ 临界点集是一个正维代数簇,包含大量"零损失流形"。这与训练 LLM 时观察到的"几乎处处都能拟合训练集"完全吻合(Zhang et al. 2017,Understanding deep learning requires rethinking generalization)。
6. 高维几何的"诡异"特征
$d \to \infty$ 时,损失景观会发生奇特的几何转变:
- 鞍点主导:随机生成的临界点几乎必然是鞍点(Bray-Dean 2007 自旋玻璃理论)。
- 球面集中:高维下,体积集中于细窄的"赤道带"——损失值的分布也极度集中。
- "几乎处处" 平坦:大部分体积上 $\|\nabla L\|$ 很小,但梯度方向几乎随机——SGD 的噪声反而成为正则化器。
↩ 回链:代数几何工具如何切入
1) 临界点集 $\mathrm{Crit}(L)$ = 由多项式方程定义的仿射簇 → 用
仿射簇 (stage5/00) 与
Nullstellensatz (stage4/04)
分析其结构。
2) 退化临界点 = 簇的奇点(Hessian 不可逆)→ 需
维数与奇点理论 (stage5/04)。
3) 这些奇点几何正是 Watanabe
奇异学习理论(下章)的入口。
练习
- 对 $L(x,y) = x^2 + y^4$,求临界点并讨论 Morse 引理是否适用(提示:检查 Hessian 是否退化)。
- 设 $L(\theta) = \|A\theta - b\|^2$(线性回归)。证明:(a) 损失是二次型;(b) 临界点集是仿射子空间;(c) 当 $A$ 列满秩时唯一极小。
- 对单层 ReLU 网络 $f(x) = \max(0, w^\top x)$,讨论损失函数在 $w$ 处的可微性——为何标准 Morse 理论不适用?这正是后续奇异学习理论的动机。
- $d = 1000$ 维高斯随机函数的临界点中,期望"鞍点 : 极小"比例约为多少?(提示:参考 Bray-Dean 公式)
关键文献
- Dauphin 2014 Identifying and Attacking the Saddle Point Problem.
- Choromanska 2015 The Loss Surfaces of Multilayer Networks.
- Zhang 2017 Understanding deep learning requires rethinking generalization.
- Garipov 2018 Loss Surfaces, Mode Connectivity, and Fast Ensembling.
- Draxler 2018 Essentially No Barriers in Neural Network Energy Landscape.