损失函数的几何景观

阶段7 · DL/LLM理论 | 难度: 🟡 进阶

📋 前置知识

训练一个深度神经网络,本质上是在做一件事:在高维参数空间里,寻找一个使损失函数 $L(\theta)$ 尽可能小的点 $\theta^*$。这片"参数空间 + 损失高度"构成的曲面就叫 损失景观(Loss Landscape)——它是 DL 一切训练动力学的几何舞台。

想象你被空投到一片未知山地,眼睛蒙着布,只能用脚感受脚下的坡度。你的目标是走到海拔最低的山谷。这就是 梯度下降;山地的等高线、山峰、鞍口、平原——就是损失景观的几何特征。

1. 损失景观:曲面、等高线与梯度

损失景观(Loss Landscape)

神经网络参数 $\theta \in \mathbb{R}^d$($d$ 通常达 $10^6 \sim 10^{12}$),训练数据 $\mathcal{D} = \{(x_i, y_i)\}$。损失函数 $$ L: \mathbb{R}^d \to \mathbb{R}, \qquad L(\theta) = \frac{1}{N} \sum_{i=1}^N \ell\bigl(f_\theta(x_i), y_i\bigr). $$ 其图像 $\Gamma = \{(\theta, L(\theta)) : \theta \in \mathbb{R}^d\} \subset \mathbb{R}^{d+1}$ 即"损失景观"。

梯度 $\nabla L$ 给出最陡上升方向;梯度下降沿 $-\nabla L$ 滑动: $$ \theta_{t+1} = \theta_t - \eta \nabla L(\theta_t). $$

SVG · 损失曲面的 3D 透视(含等高线投影)

$\textcolor{5d6d7e}{\theta_1}$
$\textcolor{5d6d7e}{L(\theta)}$
$\textcolor{5d6d7e}{\theta_2}$
局部极小 $\textcolor{27ae60}{\theta^*_1}$
鞍点 saddle
局部极大
$\textcolor{27ae60}{-\nabla L}$
等高线(俯视)
极小=同心椭圆
鞍点=双曲

高维实战中,鞍点远比极小值常见($d$ 越大,所有方向都是极小的概率越低)—— 这是 Dauphin et al. 2014 的关键观察。

2. 临界点的代数分类:Hessian 与 Morse 理论

临界点(Critical Point)

点 $\theta_0$ 称为损失函数 $L$ 的临界点,当且仅当 $\nabla L(\theta_0) = 0$。临界点集合 $$ \mathrm{Crit}(L) := \{\theta : \partial_1 L = \cdots = \partial_d L = 0\} $$ 是 $\mathbb{R}^d$ 中由 $d$ 个方程定义的仿射簇(algebraic variety)!

换句话说,所有梯度下降的"驻点",恰好是一组多项式方程的零点集——这是 DL 与代数几何的第一个明确接口。

Hessian 谱分类(Morse 引理初步)

设 $H = \nabla^2 L(\theta_0)$ 是临界点处的 Hessian(对称 $d \times d$ 矩阵),其特征值为 $\lambda_1, \lambda_2, \ldots, \lambda_d$。则按符号分布对临界点分类:

SVG · Hessian 特征值的几何分类

局部极小
$\textcolor{27ae60}{\lambda_1, \lambda_2 > 0}$
所有方向都"凹陷"
鞍点
$\textcolor{e67e22}{\lambda_1 > 0,\, \lambda_2 < 0}$
一向凹一向凸
局部极大
$\textcolor{e74c3c}{\lambda_1, \lambda_2 < 0}$
所有方向都"凸起"
退化(奇点)
$\textcolor{8e44ad}{\exists\, \lambda_i = 0}$
"平坦谷地"

关键代数视角:临界点的"类型"由 Hessian 矩阵的谱不变量决定,而谱不变量是矩阵的代数函数(特征多项式系数)。整个分类系统是纯代数的。

例 · 二维玩具损失

设 $L(x, y) = x^2 - y^2$。则 $\nabla L = (2x, -2y)$,临界点仅 $(0,0)$;Hessian $$ H = \begin{pmatrix} 2 & 0 \\ 0 & -2 \end{pmatrix},\quad \lambda = 2, -2. $$ 一正一负 → 标准鞍点。这正是 $z = x^2 - y^2$ 的"马鞍面"。

3. Morse 理论的拓扑视角

Morse 理论(Marston Morse, 1925)告诉我们:函数的临界点结构决定了流形的拓扑! 这是 20 世纪最深刻的几何思想之一,也是连接代数几何与拓扑的桥梁。

Morse 引理

设 $\theta_0$ 为非退化临界点(即 Hessian 可逆),其 Morse 指标 $\mu(\theta_0) = $ 负特征值的个数。则在 $\theta_0$ 邻域,可选合适坐标 $u_1, \ldots, u_d$ 使得 $$ L(\theta) = L(\theta_0) - u_1^2 - \cdots - u_\mu^2 + u_{\mu+1}^2 + \cdots + u_d^2. $$

这意味着:非退化临界点的局部几何由 Morse 指标完全确定,与高阶项无关。

在 DL 中,低指标的临界点(小 $\mu$)通常对应"好"局部极小——附近损失低且训练稳定。 Choromanska et al. (2015) 的"球面自旋玻璃模型"显示:随机神经网络中,低指标临界点的损失值集中在一个狭窄区间,构成"训练宜居带"。

4. 临界点的连通性与"模式连接"

当代 DL 的一个惊人发现(Garipov et al. 2018, Draxler et al. 2018):

大型神经网络中,许多看似独立的"局部极小"实际上由一条几乎水平的弯曲路径连接——这就是模式连接(Mode Connectivity)

SVG · 临界点连通性图(Mode Connectivity)

直线插值:高损失壁垒
高 $\textcolor{e74c3c}{L}$
弯曲路径:损失保持低位
$\textcolor{27ae60}{\theta_A^*}$
$\textcolor{27ae60}{\theta_B^*}$
两个独立训练得到的极小 $\textcolor{5d6d7e}{\theta_A^*, \theta_B^*}$ 之间,存在低损连接路径——损失景观的"低洼带"是连通的。

这一现象的代数几何解释:神经网络的损失下水平集 $\{L \leq c\}$ 通常是连通簇的并,而非孤立点。这与代数簇的不可约分量理论密切相关(参见 stage5/00 仿射簇)。

5. 损失曲面的代数几何结构

对于一类常见模型,损失景观恰是多项式函数,于是 $\mathrm{Crit}(L)$ 直接是仿射代数簇:

例 · 矩阵分解(线性 autoencoder)

设 $X \in \mathbb{R}^{n \times m}$ 为数据矩阵,模型 $f_\theta(x) = U V^\top x$,参数 $\theta = (U, V)$,平方损失 $$ L(U, V) = \|X - U V^\top X\|_F^2. $$ 这是 $U, V$ 的多项式函数,$\nabla L = 0$ 给出 $$ U V^\top X X^\top - X X^\top = 0 \quad \text{(在 } V \text{ 方向)}. $$ 临界点集是一个仿射代数簇——可用消元理论(Phase 9)求解。

Baldi-Hornik (1989) 证明:所有局部极小都是全局极小,所有其他临界点都是鞍点!这是 DL 损失景观"良性"的最早实例。

过参数化(Overparameterization)的几何含义

当参数数 $d > $ 数据数 $N$ 时(现代 LLM 的常规情形),$\nabla L = 0$ 给出 $d$ 个方程在 $\mathbb{R}^d$ 中的解集,期望维数 $d - d = 0$,但因方程间有线性相关性,实际维数 $\geq d - N \gg 0$:

→ 临界点集是一个正维代数簇,包含大量"零损失流形"。这与训练 LLM 时观察到的"几乎处处都能拟合训练集"完全吻合(Zhang et al. 2017,Understanding deep learning requires rethinking generalization)。

6. 高维几何的"诡异"特征

$d \to \infty$ 时,损失景观会发生奇特的几何转变:

↩ 回链:代数几何工具如何切入

1) 临界点集 $\mathrm{Crit}(L)$ = 由多项式方程定义的仿射簇 → 用 仿射簇 (stage5/00)Nullstellensatz (stage4/04) 分析其结构。
2) 退化临界点 = 簇的奇点(Hessian 不可逆)→ 需 维数与奇点理论 (stage5/04)
3) 这些奇点几何正是 Watanabe 奇异学习理论(下章)的入口。

练习

  1. 对 $L(x,y) = x^2 + y^4$,求临界点并讨论 Morse 引理是否适用(提示:检查 Hessian 是否退化)。
  2. 设 $L(\theta) = \|A\theta - b\|^2$(线性回归)。证明:(a) 损失是二次型;(b) 临界点集是仿射子空间;(c) 当 $A$ 列满秩时唯一极小。
  3. 对单层 ReLU 网络 $f(x) = \max(0, w^\top x)$,讨论损失函数在 $w$ 处的可微性——为何标准 Morse 理论不适用?这正是后续奇异学习理论的动机。
  4. $d = 1000$ 维高斯随机函数的临界点中,期望"鞍点 : 极小"比例约为多少?(提示:参考 Bray-Dean 公式)

关键文献