流形假设与表示学习

阶段7 · DL/LLM理论 | 难度: 🟡 进阶

📋 前置知识

一张 1024×1024 的彩色照片 = $\mathbb{R}^{3 \times 1024 \times 1024}$ 中一个点(约 $3 \times 10^6$ 维)。 但所有有意义的"自然图片"实际只占据这巨大像素空间中一个极薄、弯曲的子集——这正是 流形假设(Manifold Hypothesis)

想象你在一栋摩天大楼里搜索"住户",其实他们都集中在某一层(流形)。表示学习就是替每位住户找到一对"楼层 + 房号"——把高维像素压缩到低维有意义的坐标。VAE、Diffusion、Transformer 嵌入都在做这件事。

1. 流形假设:自然数据的低维结构

流形假设(Manifold Hypothesis)

高维数据 $\mathcal{D} \subset \mathbb{R}^N$(如图像、语音、文本嵌入)实际近似集中在一个低维子流形 $\mathcal{M} \subset \mathbb{R}^N$ 上,$\dim \mathcal{M} = d \ll N$,且 $\mathcal{M}$ 一般是非线性、弯曲的。

实证证据(Pope et al. 2021):用 Local Intrinsic Dimension 估计—— ImageNet 的有效维数约 $40 \sim 60$;CIFAR-10 约 $20$。比像素维度小若干数量级。

SVG · 高维像素空间中的低维数据流形

$\mathbb{R}^N$ 像素空间($N \sim 10^6$)
流形 $\textcolor{a0530b}{\mathcal{M}}$(含自然图像)
噪声像素(不像任何东西)
编码 $\textcolor{8e44ad}{\Phi}$
$\mathbb{R}^d$ 潜空间($d \sim 10$)
流形 $\textcolor{27ae60}{\mathcal{M}}$ 被"展平"为
低维欧氏坐标 $\textcolor{27ae60}{z = \Phi(x)}$

表示学习的目标:找到映射 $\Phi: \mathbb{R}^N \to \mathbb{R}^d$,使流形 $\mathcal{M}$ 被合理"展平"——保留语义距离、丢弃像素噪声。

2. 经典流形学习的代数几何视角

20 世纪末已有 Isomap (Tenenbaum 2000)、LLE (Roweis-Saul 2000)、Laplacian Eigenmap 等流形学习方法。它们的共同假设:$\mathcal{M}$ 局部欧氏

例 · Swiss Roll:流形学习的"果蝇"

标准 Swiss roll 是把一张矩形纸卷起: $$ \mathbf{x}(t, h) = (t \cos t,\; h,\; t \sin t), \quad t \in [3\pi/2, 9\pi/2],\; h \in [0, 21]. $$ 数据在 $\mathbb{R}^3$ 中弯曲为螺旋,但内禀只有 $2$ 维。流形学习应能"卷开"为矩形 $(t, h)$ 平面。

SVG · Swiss Roll:经典流形学习示例

原始数据 $\mathbb{R}^3$
2D 流形扭曲嵌入到 3D(外在维度高,内在 $\textcolor{5d6d7e}{d=2}$)
"摊平"
Isomap/UMAP
展开后 $\mathbb{R}^2$
$\textcolor{5d6d7e}{(t, h)}$ 内禀坐标 — 测地距离保持

3. VAE:把流形假设变成生成模型

变分自编码器(VAE, Kingma-Welling 2013)是流形假设的概率化身:假设数据由低维潜变量 $z \in \mathbb{R}^d$ 通过一个解码器(神经网络)生成,再加上观测噪声。

VAE 的概率模型

生成过程: $$ z \sim \mathcal{N}(0, I_d), \qquad x \sim p_\theta(x \mid z) = \mathcal{N}\bigl(\mu_\theta(z), \Sigma_\theta(z)\bigr). $$ 变分推断:用编码器 $q_\phi(z \mid x) = \mathcal{N}\bigl(\mu_\phi(x), \Sigma_\phi(x)\bigr)$ 近似真后验,最大化 ELBO: $$ \mathcal{L} = \mathbb{E}_{q_\phi}\bigl[\log p_\theta(x \mid z)\bigr] - \mathrm{KL}\bigl(q_\phi(z \mid x) \,\|\, p(z)\bigr). $$

SVG · VAE 编码器-解码器与流形映射

输入空间 $\mathcal{X}$
高维数据流形 $\textcolor{3a7bc8}{\mathcal{M}}$
$\textcolor{3a7bc8}{q_\phi(z|x)}$
编码器
潜空间 $\mathcal{Z}$
先验 $\textcolor{a0530b}{\mathcal{N}(0, I)}$
$\textcolor{27ae60}{p_\theta(x|z)}$
解码器
重建 $\hat{\mathcal{X}}$
学到的 $\textcolor{27ae60}{\mathcal{M}_\theta}$
ELBO = 重建项 $\textcolor{5d6d7e}{\mathbb{E}_q[\log p_\theta(x|z)]}$正则项 $\textcolor{5d6d7e}{\mathrm{KL}(q_\phi \,\|\, p)}$
解码器把 $\textcolor{5d6d7e}{\mathcal{Z}}$ 中的高斯团块 → 数据流形 $\textcolor{5d6d7e}{\mathcal{M}_\theta}$ 上的紧凑参数化。

4. 代数簇作为数据模型

既然真实数据集中在低维子流形上,我们能否用代数簇(多项式方程定义的零集)来近似它? 这是 algebraic geometry of data 的研究方向(Hauenstein, Sommese 等)。

多项式拟合定理(粗略版)

任一紧致 $C^\infty$ 流形 $\mathcal{M} \subset \mathbb{R}^N$ 可被任意精度近似为某个仿射代数簇 $V(f_1, \ldots, f_k)$ 的非奇异部分(用 Stone-Weierstrass + Whitney 嵌入)。

实操上:

例 · MNIST 的代数模型

手写数字"3"和"8"的形变可由少数几个变量参数化(笔画粗细、倾斜、纵横比、闭合程度…)。粗略地,每个数字类对应一个低维代数簇。VAE 的潜空间 $\mathcal{Z} \cong \mathbb{R}^{10}$ 实质上就是这些代数簇的"良好坐标"。

5. 表示学习 = 寻找流形的好坐标

这是本章最简洁的口号:表示 $\Phi(x)$ 就是流形 $\mathcal{M}$ 的"局部坐标卡"。"好坐标"应满足:

  1. 不变性:忽略与任务无关的变换(尺度、视角、字体等)。
  2. 解耦(disentanglement):每个坐标对应一个独立的语义因子。
  3. 线性化:流形上的语义运算("国王 - 男 + 女 = 女王")变成线性操作。
  4. 可计算:编码器 $\Phi$ 是可微的、可被神经网络实现。

对比学习的几何(SimCLR、CLIP)

目标:拉近"语义相似"对,推远"不相似"对。 $$ \mathcal{L}_{\mathrm{con}} = -\log \frac{\exp(\mathrm{sim}(\Phi(x), \Phi(x^+)))}{\sum_{x^-} \exp(\mathrm{sim}(\Phi(x), \Phi(x^-)))}. $$ 几何效果:把流形 $\mathcal{M}$ 嵌入到单位球面,使等价类(旋转/裁剪同一图)相距很近——产生的潜空间近似为商流形 $\mathcal{M}/G$。

语言模型的 token 嵌入也是同样故事:词汇 → $\mathbb{R}^{d_{\text{model}}}$ 的几何坐标,使语义相近的词靠在一起、句法关系对应方向向量。

6. 扩散模型的几何解释

近年最火的生成模型——扩散模型(Diffusion Model)(Sohl-Dickstein 2015, Ho 2020)也有清晰的流形几何含义。

前向 / 反向扩散过程

前向:从数据 $x_0 \sim \mathcal{M}$ 出发,逐步加高斯噪声, $$ x_t = \sqrt{\bar\alpha_t}\, x_0 + \sqrt{1 - \bar\alpha_t}\,\varepsilon, \quad \varepsilon \sim \mathcal{N}(0, I). $$ 直到 $t = T$ 时 $x_T \approx \mathcal{N}(0, I)$("数据流形被噪声完全模糊")。

反向:训练神经网络 $s_\theta(x_t, t) \approx \nabla_x \log p_t(x)$(score function),通过逆 SDE $$ dx = \bigl[f(x, t) - g(t)^2\, s_\theta(x, t)\bigr] dt + g(t)\, d\bar W $$ 从噪声 $\to$ 数据流形采样。

几何视角:流形上的"投影"

扩散模型的反向过程可视作沿 score 向量场 $\nabla \log p_t$ 的梯度流。该向量场在数据流形 $\mathcal{M}$ 附近指向 $\mathcal{M}$——即每个去噪步骤 = 把当前点"投影"回低维流形(Chen-Karras-Aittala 2023 等)。

因此扩散模型实质上学到了到 $\mathcal{M}$ 的投影算子,而非一个显式的流形参数化——这是它比 VAE 更灵活的原因之一。

最近的研究(Stanczuk et al. 2024, Tempczyk et al. 2022)甚至直接用扩散模型估计数据流形的内在维数 $\dim \mathcal{M}$——通过 score 矩阵的奇异值分布。

7. 与代数几何的总结接口

↩ 流形假设的代数几何阐释

仿射簇维数stage5/04)↔ 数据流形的内在维度 $d$
有理映射stage5/03)↔ VAE 编码器/解码器(双有理 ≈ 可逆生成)
非奇异点↔ 流形的"光滑"区域(VAE 训练良好的部分)
商流形(GIT 商)↔ 对比学习中的等价类约商
切空间与法丛↔ score 向量场的方向分解

把整个 Phase 14 的理论篇连起来:

  1. 损失景观(00 章)—— 训练动力学的代数几何舞台
  2. SLT(01 章)—— 用奇点消解定量泛化
  3. 热带几何(02 章)—— ReLU 网络的代数本性
  4. 张量与等变(03 章)—— 对称性与张量分解的 secant 簇
  5. 流形与表示(本章)—— 数据本身就是低维代数簇

下一章(实战篇)将把这些理论工具应用到 Transformer / LLM 的几何分析——注意力机制的代数结构、上下文学习的流形动力学,以及大模型涌现能力的相变图景。

练习

  1. 用 Whitney 嵌入定理估计:$d$ 维紧流形可嵌入到 $\mathbb{R}^{2d+1}$。这给"潜空间维度选择"什么启发?
  2. 对 Swiss roll 数据,PCA 的"展开"质量与 Isomap 相比如何?画出二者的低维投影对比。
  3. 设 VAE 解码器 $D: \mathbb{R}^d \to \mathbb{R}^N$ 是单射光滑映射。证明:其像 $D(\mathbb{R}^d)$ 是嵌入 $d$-流形(无奇点)。
  4. SimCLR 损失在球面上等价于什么经典几何对象?(提示:vMF 分布)
  5. 若数据流形 $\mathcal{M}$ 含奇点(如两个曲面相交),扩散模型的 score 在奇点处会发生什么?查阅 Stanczuk 2024。

关键文献