热带几何与 ReLU 网络

阶段7 · DL/LLM理论 | 难度: 🟡 进阶

📋 前置知识

热带几何(Tropical Geometry)是 21 世纪初兴起的一支代数几何分支:把"加法"换成"取最大",把"乘法"换成"加法"——突然之间,多项式都变成了分段线性函数,代数曲线都变成了分段线性图形

惊人的事实:带 ReLU 激活的神经网络,恰好就是热带多项式的比值(热带有理函数)。 网络的决策边界 = 热带超曲面。这把 DL 的几何分析交到了代数几何手里。 — Zhang, Naitzat, Lim, Tropical Geometry of Deep Neural Networks, ICML 2018.

1. 热带半环:换一套加法和乘法

热带半环(Max-Plus 半环)$\mathbb{T}$

底集 $\mathbb{T} = \mathbb{R} \cup \{-\infty\}$。定义两种运算: $$ a \oplus b := \max(a, b), \qquad a \otimes b := a + b. $$

生活类比:你在山区挑选最快路径——总用时 = 各段用时之和(普通加法 → 热带乘法);多条备选路径中选最快 = 取 max(普通 max → 热带加法)。这正是动态规划的代数化身。

例 · 简单热带运算

$3 \oplus 5 = \max(3, 5) = 5$
$3 \otimes 5 = 3 + 5 = 8$
$(2 \oplus 7) \otimes 4 = 7 \otimes 4 = 11$

2. 热带多项式与分段线性函数

热带多项式

形式表达 $$ p(x_1, \ldots, x_n) = \bigoplus_{\alpha \in A} c_\alpha \otimes x_1^{\otimes \alpha_1} \otimes \cdots \otimes x_n^{\otimes \alpha_n}. $$ 翻译回普通运算: $$ p(x) = \max_{\alpha \in A}\;\bigl(c_\alpha + \langle \alpha, x \rangle\bigr). $$

—— 即一族仿射函数的逐点最大值。这就是凸的、连续的、分段线性函数。

反过来,任何凸的分段线性函数都能写成热带多项式(只要有限多片段)。这是 DL 的入口:

关键观察 · ReLU 是热带运算

ReLU 函数 $\sigma(x) = \max(0, x)$ 可写成 $$ \sigma(x) = 0 \oplus x = \max(0, x). $$ 于是单层 ReLU 网络 $f(x) = \sigma(\mathbf{w}^\top x + b) = \max(0, \mathbf{w}^\top x + b)$ 即一个含两项的热带多项式(系数 $0$ 和 $b$)。

SVG · ReLU 激活 → 分段线性 → 热带曲线(三步对应)

Step 1 · ReLU 激活
$\textcolor{27ae60}{\sigma(x) = \max(0, x)}$
折点 $\textcolor{5d6d7e}{(0,0)}$
两段仿射 = 取 max
= 热带"二项式"
Step 2 · 多层 ReLU = 分段线性
$\textcolor{3a7bc8}{f = \mathrm{ReLU}(\cdots\mathrm{ReLU}(\mathbf{W}_1 x))}$
连续凸/凹分段线性
= 热带有理函数 $\textcolor{5d6d7e}{p \oslash q}$
Step 3 · 热带超曲面
决策边界
分段线性"折线"
对应链: ReLU 单元 → 凸分段线性函数 → 热带多项式比值 → 决策边界为热带超曲面(折线/曲面)

3. ReLU 网络的完整热带表示

现在精确化。考虑前向网络 $f: \mathbb{R}^d \to \mathbb{R}$,逐层为 $$ h^{(l+1)} = \sigma\bigl(W^{(l)} h^{(l)} + b^{(l)}\bigr), \quad \sigma = \mathrm{ReLU}. $$ 权重 $W^{(l)}$ 一般含正负值。引入分解 $W = W^+ - W^-$($W^\pm \geq 0$),则单层 $$ \sigma(Wx + b) = \max\bigl(W^+ x + b, W^- x\bigr) - W^- x. $$ 每个 $\max$ 都是热带"加"$\oplus$,每个 $W^+ x$ 是热带"乘"$\otimes$ 后的累加,故:

Zhang-Naitzat-Lim 主定理(ICML 2018)

每个具有整数权重的 ReLU 网络 $f$ 都可写成热带有理函数: $$ f(x) = p(x) \oslash q(x) = p(x) - q(x), $$ 其中 $p, q$ 是热带多项式(即"凸分段线性函数")。深度 $L$ 层的网络对应阶 $\leq d^L$ 的 Newton 多面体。

对应字典:

神经网络 热带几何
ReLU 激活 $0 \oplus x$(热带二项式)
权重和(线性层) 热带乘法 $\otimes$ 加和
层堆叠 多项式合成
函数 $f(x) = 0$(决策边界) 热带超曲面 $V(p \oplus q)$
表达能力(线性区数) Newton 多面体顶点数

4. 热带超曲面与决策边界

热带超曲面(Tropical Hypersurface)

热带多项式 $p(x) = \max_\alpha (c_\alpha + \langle \alpha, x\rangle)$ 的热带零集定义为: 使最大值在至少两项处同时取得的点集 $$ V(p) = \{x : \exists\, \alpha \neq \beta,\; c_\alpha + \langle\alpha,x\rangle = c_\beta + \langle\beta,x\rangle = p(x)\}. $$

这正是 $p$ 的非可微集——分段线性"折线/折面"的位置。

直观图像:$p$ 是凸分段线性函数("屋顶"),$V(p)$ 是这屋顶的棱(脊线)组成的图。在 $\mathbb{R}^2$ 中,$V(p)$ 是三价图:每个顶点恰有 3 条射线/边相交(满足"零张力"平衡条件)。

SVG · 二维热带曲线 ($n=2$)

"屋顶"图:$p(x_1, x_2) = \max\,(\cdots)$
顶点 $\textcolor{1a5490}{v_0}$
折面(脊线)= 热带曲线 $\textcolor{5d6d7e}{V(p)}$
Newton 多面体(对偶)
$\textcolor{a0530b}{\alpha_1=(0,0)}$
$\textcolor{a0530b}{\alpha_2=(1,0)}$
$\textcolor{a0530b}{\alpha_3=(0,1)}$
每条边 ⟷ 热带曲线一条射线
左↔右:热带曲线的拓扑由 Newton 多面体的对偶细分完全决定。

5. Newton 多面体与网络复杂度

Newton 多面体(Newton Polytope)

热带多项式 $p(x) = \bigoplus_\alpha c_\alpha \otimes x^\alpha$ 的 Newton 多面体定义为 $$ \mathrm{Newt}(p) = \mathrm{conv}\{\alpha : c_\alpha \neq -\infty\} \subset \mathbb{R}^n. $$ 即所有指数向量 $\alpha$ 的凸包

对偶细分(Duality)

$V(p)$ 与 $\mathrm{Newt}(p)$ 的"上凸包细分"互为多面体对偶

SVG · Newton 多面体的细分决定网络的"线性区数"

浅层网络
线性区数 = 1
表达能力低
中层网络
线性区数 ≈ 4
表达能力中等
深层网络
线性区数 = $\textcolor{7b241c}{O(d^L)}$
指数增长,表达力高
Montufar 等 (NIPS 2014) 定理:深度 $\textcolor{5d6d7e}{L}$、宽度 $\textcolor{5d6d7e}{d}$ 的 ReLU 网络可分出 $\textcolor{5d6d7e}{\Theta\bigl((d/n)^{(L-1)n} d^n\bigr)}$ 个线性区——比同参数浅层网络指数级多

6. 应用:ReLU 网络的几何性质定理

把 DL 翻成热带几何带来一系列硬定理:

例 · 一维 ReLU 网络 = 凸分段线性函数

$f(x) = \sum_{i=1}^k a_i \max(0, w_i x + b_i)$(一层 $k$ 个 ReLU + 线性输出)。当所有 $a_i \geq 0$ 时,$f$ 是凸的分段线性函数 = 热带多项式 $$ f(x) = \bigoplus_{S \subseteq [k]}\Bigl(\sum_{i \in S} (w_i x + b_i)\Bigr). $$ 折点(不可微点)数量 $\leq k$,且恰好是 Newton 多面体在 $\mathbb{R}$ 上投影的整数格点。

7. 与传统代数几何的桥梁

热带几何并非"独立"的几何——它是经典代数几何的"$t \to 0$" 极限:考虑赋值 $\nu_t: \mathbb{C}((t)) \to \mathbb{R}$,$\nu_t\bigl(\sum c_n t^n\bigr) = \min\{n : c_n \neq 0\}$。则代数簇的赋值像在合适尺度上恰为热带簇(Bieri-Groves 定理)。

Maslov 去量子化(dequantization)

定义参数化半环:$a \oplus_h b := h \log\bigl(e^{a/h} + e^{b/h}\bigr)$。 当 $h \to 0^+$,$\oplus_h \to \max$;这就是从普通代数到热带代数的极限过渡。

有趣的是,这正是 softmax → max 的极限!LLM 中的 attention softmax 在低温度下退化为热带运算——为热带 attention 的研究提供了直接动机。

↩ 回链:与代数几何的精确接口

多项式stage5/00)→ 热带多项式(max-plus 加法)
仿射簇 $V(f)$ → 热带超曲面 $V_{\mathrm{trop}}(f)$
Bezout 定理stage5/07)有热带版本:两条热带曲线的稳定相交数 = 度数之积
Newton 多面体是连接经典与热带几何的"桥梁多面体"

练习

  1. 计算 $p(x, y) = (x \otimes y) \oplus (2 \otimes x) \oplus 3$。在 $\mathbb{R}^2$ 上画出 $V(p)$ 与 Newton 多面体。
  2. 证明:单层 ReLU 网络(一个隐藏层)的输出是热带多项式。两层时仍如此吗?为什么需要"有理函数 $p \oslash q$"?
  3. 给定一维 ReLU 网络 $f(x) = \max(0, x-1) + \max(0, -x+2)$,求其折点位置与对应的 Newton 多面体。
  4. 验证 Maslov 去量子化:$\lim_{h\to 0^+} h\log(e^{a/h} + e^{b/h}) = \max(a, b)$。
  5. 查阅 Pasquale-Brandenburg-Mund 2024,简述如何用热带几何分析 transformer 中的 attention 模块。

关键文献