流形假设与表示学习 — 从高中数学到代数几何

一张 1024×1024 的彩色照片 = $\mathbb{R}^{3 \times 1024 \times 1024}$ 中一个点（约 $3 \times 10^6$ 维）。但所有有意义的"自然图片"实际只占据这巨大像素空间中一个极薄、弯曲的子集——这正是 流形假设（Manifold Hypothesis）。

想象你在一栋摩天大楼里搜索"住户"，其实他们都集中在某一层（流形）。表示学习就是替每位住户找到一对"楼层 + 房号"——把高维像素压缩到低维有意义的坐标。VAE、Diffusion、Transformer 嵌入都在做这件事。

1. 流形假设：自然数据的低维结构

流形假设（Manifold Hypothesis） 高维数据 $\mathcal{D} \subset \mathbb{R}^N$（如图像、语音、文本嵌入）实际近似集中在一个低维子流形 $\mathcal{M} \subset \mathbb{R}^N$ 上，$\dim \mathcal{M} = d \ll N$，且 $\mathcal{M}$ 一般是非线性、弯曲的。

实证证据（Pope et al. 2021）：用 Local Intrinsic Dimension 估计—— ImageNet 的有效维数约 $40 \sim 60$；CIFAR-10 约 $20$。比像素维度小若干数量级。

SVG · 高维像素空间中的低维数据流形

表示学习的目标：找到映射 $\Phi: \mathbb{R}^N \to \mathbb{R}^d$，使流形 $\mathcal{M}$ 被合理"展平"——保留语义距离、丢弃像素噪声。

2. 经典流形学习的代数几何视角

20 世纪末已有 Isomap (Tenenbaum 2000)、LLE (Roweis-Saul 2000)、Laplacian Eigenmap 等流形学习方法。它们的共同假设：$\mathcal{M}$ 局部欧氏。

例 · Swiss Roll：流形学习的"果蝇" 标准 Swiss roll 是把一张矩形纸卷起： $$ \mathbf{x}(t, h) = (t \cos t,\; h,\; t \sin t), \quad t \in [3\pi/2, 9\pi/2],\; h \in [0, 21]. $$ 数据在 $\mathbb{R}^3$ 中弯曲为螺旋，但内禀只有 $2$ 维。流形学习应能"卷开"为矩形 $(t, h)$ 平面。

SVG · Swiss Roll：经典流形学习示例

3. VAE：把流形假设变成生成模型

变分自编码器（VAE, Kingma-Welling 2013）是流形假设的概率化身：假设数据由低维潜变量 $z \in \mathbb{R}^d$ 通过一个解码器（神经网络）生成，再加上观测噪声。

VAE 的概率模型 生成过程： $$ z \sim \mathcal{N}(0, I_d), \qquad x \sim p_\theta(x \mid z) = \mathcal{N}\bigl(\mu_\theta(z), \Sigma_\theta(z)\bigr). $$ 变分推断：用编码器 $q_\phi(z \mid x) = \mathcal{N}\bigl(\mu_\phi(x), \Sigma_\phi(x)\bigr)$ 近似真后验，最大化 ELBO： $$ \mathcal{L} = \mathbb{E}_{q_\phi}\bigl[\log p_\theta(x \mid z)\bigr] - \mathrm{KL}\bigl(q_\phi(z \mid x) \,\|\, p(z)\bigr). $$

SVG · VAE 编码器-解码器与流形映射

4. 代数簇作为数据模型

既然真实数据集中在低维子流形上，我们能否用代数簇（多项式方程定义的零集）来近似它？这是 algebraic geometry of data 的研究方向（Hauenstein, Sommese 等）。

多项式拟合定理（粗略版） 任一紧致 $C^\infty$ 流形 $\mathcal{M} \subset \mathbb{R}^N$ 可被任意精度近似为某个仿射代数簇 $V(f_1, \ldots, f_k)$ 的非奇异部分（用 Stone-Weierstrass + Whitney 嵌入）。

实操上：

Tensor decomposition methods：把数据矩阵补全 → 求解低秩代数簇。
Algebraic statistics（Sturmfels, Sullivant）：把概率模型直接看成代数簇 — 网络隐变量模型 = 高维 secant variety。
Jacobian rank estimation：估计本地切空间维数 → 得到 $\dim \mathcal{M}$。

例 · MNIST 的代数模型 手写数字"3"和"8"的形变可由少数几个变量参数化（笔画粗细、倾斜、纵横比、闭合程度…）。粗略地，每个数字类对应一个低维代数簇。VAE 的潜空间 $\mathcal{Z} \cong \mathbb{R}^{10}$ 实质上就是这些代数簇的"良好坐标"。

5. 表示学习 = 寻找流形的好坐标

这是本章最简洁的口号：表示 $\Phi(x)$ 就是流形 $\mathcal{M}$ 的"局部坐标卡"。"好坐标"应满足：

不变性：忽略与任务无关的变换（尺度、视角、字体等）。
解耦（disentanglement）：每个坐标对应一个独立的语义因子。
线性化：流形上的语义运算（"国王 - 男 + 女 = 女王"）变成线性操作。
可计算：编码器 $\Phi$ 是可微的、可被神经网络实现。

对比学习的几何（SimCLR、CLIP） 目标：拉近"语义相似"对，推远"不相似"对。 $$ \mathcal{L}_{\mathrm{con}} = -\log \frac{\exp(\mathrm{sim}(\Phi(x), \Phi(x^+)))}{\sum_{x^-} \exp(\mathrm{sim}(\Phi(x), \Phi(x^-)))}. $$ 几何效果：把流形 $\mathcal{M}$ 嵌入到单位球面，使等价类（旋转/裁剪同一图）相距很近——产生的潜空间近似为商流形 $\mathcal{M}/G$。

语言模型的 token 嵌入也是同样故事：词汇 → $\mathbb{R}^{d_{\text{model}}}$ 的几何坐标，使语义相近的词靠在一起、句法关系对应方向向量。

6. 扩散模型的几何解释

近年最火的生成模型——扩散模型（Diffusion Model）（Sohl-Dickstein 2015, Ho 2020）也有清晰的流形几何含义。

前向 / 反向扩散过程 前向：从数据 $x_0 \sim \mathcal{M}$ 出发，逐步加高斯噪声， $$ x_t = \sqrt{\bar\alpha_t}\, x_0 + \sqrt{1 - \bar\alpha_t}\,\varepsilon, \quad \varepsilon \sim \mathcal{N}(0, I). $$ 直到 $t = T$ 时 $x_T \approx \mathcal{N}(0, I)$（"数据流形被噪声完全模糊"）。 反向：训练神经网络 $s_\theta(x_t, t) \approx \nabla_x \log p_t(x)$（score function），通过逆 SDE $$ dx = \bigl[f(x, t) - g(t)^2\, s_\theta(x, t)\bigr] dt + g(t)\, d\bar W $$ 从噪声 $\to$ 数据流形采样。

几何视角：流形上的"投影" 扩散模型的反向过程可视作沿 score 向量场 $\nabla \log p_t$ 的梯度流。该向量场在数据流形 $\mathcal{M}$ 附近指向 $\mathcal{M}$——即每个去噪步骤 = 把当前点"投影"回低维流形（Chen-Karras-Aittala 2023 等）。 因此扩散模型实质上学到了到 $\mathcal{M}$ 的投影算子，而非一个显式的流形参数化——这是它比 VAE 更灵活的原因之一。

最近的研究（Stanczuk et al. 2024, Tempczyk et al. 2022）甚至直接用扩散模型估计数据流形的内在维数 $\dim \mathcal{M}$——通过 score 矩阵的奇异值分布。

7. 与代数几何的总结接口

↩ 流形假设的代数几何阐释

• 仿射簇维数（stage5/04）↔ 数据流形的内在维度 $d$
• 有理映射（stage5/03）↔ VAE 编码器/解码器（双有理 ≈ 可逆生成）
• 非奇异点↔ 流形的"光滑"区域（VAE 训练良好的部分）
• 商流形（GIT 商）↔ 对比学习中的等价类约商
• 切空间与法丛↔ score 向量场的方向分解

把整个 Phase 14 的理论篇连起来：

损失景观（00 章）—— 训练动力学的代数几何舞台
SLT（01 章）—— 用奇点消解定量泛化
热带几何（02 章）—— ReLU 网络的代数本性
张量与等变（03 章）—— 对称性与张量分解的 secant 簇
流形与表示（本章）—— 数据本身就是低维代数簇

下一章（实战篇）将把这些理论工具应用到 Transformer / LLM 的几何分析——注意力机制的代数结构、上下文学习的流形动力学，以及大模型涌现能力的相变图景。

练习 用 Whitney 嵌入定理估计：$d$ 维紧流形可嵌入到 $\mathbb{R}^{2d+1}$。这给"潜空间维度选择"什么启发？ 对 Swiss roll 数据，PCA 的"展开"质量与 Isomap 相比如何？画出二者的低维投影对比。 设 VAE 解码器 $D: \mathbb{R}^d \to \mathbb{R}^N$ 是单射光滑映射。证明：其像 $D(\mathbb{R}^d)$ 是嵌入 $d$-流形（无奇点）。 SimCLR 损失在球面上等价于什么经典几何对象？（提示：vMF 分布） 若数据流形 $\mathcal{M}$ 含奇点（如两个曲面相交），扩散模型的 score 在奇点处会发生什么？查阅 Stanczuk 2024。

关键文献

Tenenbaum 2000 A Global Geometric Framework for Nonlinear Dimensionality Reduction (Isomap).
Kingma 2013 Auto-Encoding Variational Bayes (VAE).
Ho 2020 Denoising Diffusion Probabilistic Models.
Pope 2021 The Intrinsic Dimension of Images and Its Impact on Learning.
Stanczuk 2024 Diffusion Models Encode the Intrinsic Dimension of Data Manifolds.
Bronstein 2021 Geometric Deep Learning Blueprint.

📋 前置知识

1. 流形假设：自然数据的低维结构

流形假设（Manifold Hypothesis）

SVG · 高维像素空间中的低维数据流形

2. 经典流形学习的代数几何视角

例 · Swiss Roll：流形学习的"果蝇"

SVG · Swiss Roll：经典流形学习示例

3. VAE：把流形假设变成生成模型

VAE 的概率模型

SVG · VAE 编码器-解码器与流形映射

4. 代数簇作为数据模型

多项式拟合定理（粗略版）

例 · MNIST 的代数模型

5. 表示学习 = 寻找流形的好坐标

对比学习的几何（SimCLR、CLIP）

6. 扩散模型的几何解释

前向 / 反向扩散过程

几何视角：流形上的"投影"

7. 与代数几何的总结接口

↩ 流形假设的代数几何阐释

练习

关键文献