损失函数的几何景观 — 从高中数学到代数几何

训练一个深度神经网络，本质上是在做一件事：在高维参数空间里，寻找一个使损失函数 $L(\theta)$ 尽可能小的点 $\theta^*$。这片"参数空间 + 损失高度"构成的曲面就叫 损失景观（Loss Landscape）——它是 DL 一切训练动力学的几何舞台。

想象你被空投到一片未知山地，眼睛蒙着布，只能用脚感受脚下的坡度。你的目标是走到海拔最低的山谷。这就是 梯度下降；山地的等高线、山峰、鞍口、平原——就是损失景观的几何特征。

1. 损失景观：曲面、等高线与梯度

损失景观（Loss Landscape） 神经网络参数 $\theta \in \mathbb{R}^d$（$d$ 通常达 $10^6 \sim 10^{12}$），训练数据 $\mathcal{D} = \{(x_i, y_i)\}$。损失函数 $$ L: \mathbb{R}^d \to \mathbb{R}, \qquad L(\theta) = \frac{1}{N} \sum_{i=1}^N \ell\bigl(f_\theta(x_i), y_i\bigr). $$ 其图像 $\Gamma = \{(\theta, L(\theta)) : \theta \in \mathbb{R}^d\} \subset \mathbb{R}^{d+1}$ 即"损失景观"。

梯度 $\nabla L$ 给出最陡上升方向；梯度下降沿 $-\nabla L$ 滑动： $$ \theta_{t+1} = \theta_t - \eta \nabla L(\theta_t). $$

SVG · 损失曲面的 3D 透视（含等高线投影）

高维实战中，鞍点远比极小值常见（$d$ 越大，所有方向都是极小的概率越低）—— 这是 Dauphin et al. 2014 的关键观察。

2. 临界点的代数分类：Hessian 与 Morse 理论

临界点（Critical Point） 点 $\theta_0$ 称为损失函数 $L$ 的临界点，当且仅当 $\nabla L(\theta_0) = 0$。临界点集合 $$ \mathrm{Crit}(L) := \{\theta : \partial_1 L = \cdots = \partial_d L = 0\} $$ 是 $\mathbb{R}^d$ 中由 $d$ 个方程定义的仿射簇（algebraic variety）！

换句话说，所有梯度下降的"驻点"，恰好是一组多项式方程的零点集——这是 DL 与代数几何的第一个明确接口。

Hessian 谱分类（Morse 引理初步） 设 $H = \nabla^2 L(\theta_0)$ 是临界点处的 Hessian（对称 $d \times d$ 矩阵），其特征值为 $\lambda_1, \lambda_2, \ldots, \lambda_d$。则按符号分布对临界点分类： 局部极小：$\lambda_i > 0$（$\forall i$）—— $H$ 正定 局部极大：$\lambda_i < 0$（$\forall i$）—— $H$ 负定 鞍点：$\lambda_i$ 有正有负 退化临界点：存在 $\lambda_i = 0$ —— 这是奇点，Morse 理论失效，需要奇异学习理论（下一章）

SVG · Hessian 特征值的几何分类

关键代数视角：临界点的"类型"由 Hessian 矩阵的谱不变量决定，而谱不变量是矩阵的代数函数（特征多项式系数）。整个分类系统是纯代数的。

例 · 二维玩具损失 设 $L(x, y) = x^2 - y^2$。则 $\nabla L = (2x, -2y)$，临界点仅 $(0,0)$；Hessian $$ H = \begin{pmatrix} 2 & 0 \\ 0 & -2 \end{pmatrix},\quad \lambda = 2, -2. $$ 一正一负 → 标准鞍点。这正是 $z = x^2 - y^2$ 的"马鞍面"。

3. Morse 理论的拓扑视角

Morse 理论（Marston Morse, 1925）告诉我们：函数的临界点结构决定了流形的拓扑！ 这是 20 世纪最深刻的几何思想之一，也是连接代数几何与拓扑的桥梁。

Morse 引理 设 $\theta_0$ 为非退化临界点（即 Hessian 可逆），其 Morse 指标 $\mu(\theta_0) = $ 负特征值的个数。则在 $\theta_0$ 邻域，可选合适坐标 $u_1, \ldots, u_d$ 使得 $$ L(\theta) = L(\theta_0) - u_1^2 - \cdots - u_\mu^2 + u_{\mu+1}^2 + \cdots + u_d^2. $$ 这意味着：非退化临界点的局部几何由 Morse 指标完全确定，与高阶项无关。

在 DL 中，低指标的临界点（小 $\mu$）通常对应"好"局部极小——附近损失低且训练稳定。 Choromanska et al. (2015) 的"球面自旋玻璃模型"显示：随机神经网络中，低指标临界点的损失值集中在一个狭窄区间，构成"训练宜居带"。

4. 临界点的连通性与"模式连接"

当代 DL 的一个惊人发现（Garipov et al. 2018, Draxler et al. 2018）：

大型神经网络中，许多看似独立的"局部极小"实际上由一条几乎水平的弯曲路径连接——这就是模式连接（Mode Connectivity）。

SVG · 临界点连通性图（Mode Connectivity）

这一现象的代数几何解释：神经网络的损失下水平集 $\{L \leq c\}$ 通常是连通簇的并，而非孤立点。这与代数簇的不可约分量理论密切相关（参见 stage5/00 仿射簇）。

5. 损失曲面的代数几何结构

对于一类常见模型，损失景观恰是多项式函数，于是 $\mathrm{Crit}(L)$ 直接是仿射代数簇：

例 · 矩阵分解（线性 autoencoder） 设 $X \in \mathbb{R}^{n \times m}$ 为数据矩阵，模型 $f_\theta(x) = U V^\top x$，参数 $\theta = (U, V)$，平方损失 $$ L(U, V) = \|X - U V^\top X\|_F^2. $$ 这是 $U, V$ 的多项式函数，$\nabla L = 0$ 给出 $$ U V^\top X X^\top - X X^\top = 0 \quad \text{（在 } V \text{ 方向）}. $$ 临界点集是一个仿射代数簇——可用消元理论（Phase 9）求解。 Baldi-Hornik (1989) 证明：所有局部极小都是全局极小，所有其他临界点都是鞍点！这是 DL 损失景观"良性"的最早实例。

过参数化（Overparameterization）的几何含义 当参数数 $d > $ 数据数 $N$ 时（现代 LLM 的常规情形），$\nabla L = 0$ 给出 $d$ 个方程在 $\mathbb{R}^d$ 中的解集，期望维数 $d - d = 0$，但因方程间有线性相关性，实际维数 $\geq d - N \gg 0$： → 临界点集是一个正维代数簇，包含大量"零损失流形"。这与训练 LLM 时观察到的"几乎处处都能拟合训练集"完全吻合（Zhang et al. 2017，Understanding deep learning requires rethinking generalization）。

6. 高维几何的"诡异"特征

$d \to \infty$ 时，损失景观会发生奇特的几何转变：

鞍点主导：随机生成的临界点几乎必然是鞍点（Bray-Dean 2007 自旋玻璃理论）。
球面集中：高维下，体积集中于细窄的"赤道带"——损失值的分布也极度集中。
"几乎处处" 平坦：大部分体积上 $\|\nabla L\|$ 很小，但梯度方向几乎随机——SGD 的噪声反而成为正则化器。

↩ 回链：代数几何工具如何切入

1) 临界点集 $\mathrm{Crit}(L)$ = 由多项式方程定义的仿射簇 → 用仿射簇 (stage5/00) 与 Nullstellensatz (stage4/04) 分析其结构。
2) 退化临界点 = 簇的奇点（Hessian 不可逆）→ 需维数与奇点理论 (stage5/04)。
3) 这些奇点几何正是 Watanabe 奇异学习理论（下章）的入口。

练习 对 $L(x,y) = x^2 + y^4$，求临界点并讨论 Morse 引理是否适用（提示：检查 Hessian 是否退化）。 设 $L(\theta) = \|A\theta - b\|^2$（线性回归）。证明：(a) 损失是二次型；(b) 临界点集是仿射子空间；(c) 当 $A$ 列满秩时唯一极小。 对单层 ReLU 网络 $f(x) = \max(0, w^\top x)$，讨论损失函数在 $w$ 处的可微性——为何标准 Morse 理论不适用？这正是后续奇异学习理论的动机。 $d = 1000$ 维高斯随机函数的临界点中，期望"鞍点 : 极小"比例约为多少？（提示：参考 Bray-Dean 公式）

关键文献

Dauphin 2014 Identifying and Attacking the Saddle Point Problem.
Choromanska 2015 The Loss Surfaces of Multilayer Networks.
Zhang 2017 Understanding deep learning requires rethinking generalization.
Garipov 2018 Loss Surfaces, Mode Connectivity, and Fast Ensembling.
Draxler 2018 Essentially No Barriers in Neural Network Energy Landscape.

📋 前置知识

1. 损失景观：曲面、等高线与梯度

损失景观（Loss Landscape）

SVG · 损失曲面的 3D 透视（含等高线投影）

2. 临界点的代数分类：Hessian 与 Morse 理论

临界点（Critical Point）

Hessian 谱分类（Morse 引理初步）

SVG · Hessian 特征值的几何分类

例 · 二维玩具损失