一张 1024×1024 的彩色照片 = $\mathbb{R}^{3 \times 1024 \times 1024}$ 中一个点(约 $3 \times 10^6$ 维)。 但所有有意义的"自然图片"实际只占据这巨大像素空间中一个极薄、弯曲的子集——这正是 流形假设(Manifold Hypothesis)。
想象你在一栋摩天大楼里搜索"住户",其实他们都集中在某一层(流形)。表示学习就是替每位住户找到一对"楼层 + 房号"——把高维像素压缩到低维有意义的坐标。VAE、Diffusion、Transformer 嵌入都在做这件事。
1. 流形假设:自然数据的低维结构
流形假设(Manifold Hypothesis)
高维数据 $\mathcal{D} \subset \mathbb{R}^N$(如图像、语音、文本嵌入)实际近似集中在一个低维子流形 $\mathcal{M} \subset \mathbb{R}^N$ 上,$\dim \mathcal{M} = d \ll N$,且 $\mathcal{M}$ 一般是非线性、弯曲的。
实证证据(Pope et al. 2021):用 Local Intrinsic Dimension 估计—— ImageNet 的有效维数约 $40 \sim 60$;CIFAR-10 约 $20$。比像素维度小若干数量级。
SVG · 高维像素空间中的低维数据流形
表示学习的目标:找到映射 $\Phi: \mathbb{R}^N \to \mathbb{R}^d$,使流形 $\mathcal{M}$ 被合理"展平"——保留语义距离、丢弃像素噪声。
2. 经典流形学习的代数几何视角
20 世纪末已有 Isomap (Tenenbaum 2000)、LLE (Roweis-Saul 2000)、Laplacian Eigenmap 等流形学习方法。它们的共同假设:$\mathcal{M}$ 局部欧氏。
例 · Swiss Roll:流形学习的"果蝇"
标准 Swiss roll 是把一张矩形纸卷起: $$ \mathbf{x}(t, h) = (t \cos t,\; h,\; t \sin t), \quad t \in [3\pi/2, 9\pi/2],\; h \in [0, 21]. $$ 数据在 $\mathbb{R}^3$ 中弯曲为螺旋,但内禀只有 $2$ 维。流形学习应能"卷开"为矩形 $(t, h)$ 平面。
SVG · Swiss Roll:经典流形学习示例
3. VAE:把流形假设变成生成模型
变分自编码器(VAE, Kingma-Welling 2013)是流形假设的概率化身:假设数据由低维潜变量 $z \in \mathbb{R}^d$ 通过一个解码器(神经网络)生成,再加上观测噪声。
VAE 的概率模型
生成过程: $$ z \sim \mathcal{N}(0, I_d), \qquad x \sim p_\theta(x \mid z) = \mathcal{N}\bigl(\mu_\theta(z), \Sigma_\theta(z)\bigr). $$ 变分推断:用编码器 $q_\phi(z \mid x) = \mathcal{N}\bigl(\mu_\phi(x), \Sigma_\phi(x)\bigr)$ 近似真后验,最大化 ELBO: $$ \mathcal{L} = \mathbb{E}_{q_\phi}\bigl[\log p_\theta(x \mid z)\bigr] - \mathrm{KL}\bigl(q_\phi(z \mid x) \,\|\, p(z)\bigr). $$
SVG · VAE 编码器-解码器与流形映射
4. 代数簇作为数据模型
既然真实数据集中在低维子流形上,我们能否用代数簇(多项式方程定义的零集)来近似它? 这是 algebraic geometry of data 的研究方向(Hauenstein, Sommese 等)。
多项式拟合定理(粗略版)
任一紧致 $C^\infty$ 流形 $\mathcal{M} \subset \mathbb{R}^N$ 可被任意精度近似为某个仿射代数簇 $V(f_1, \ldots, f_k)$ 的非奇异部分(用 Stone-Weierstrass + Whitney 嵌入)。
实操上:
- Tensor decomposition methods:把数据矩阵补全 → 求解低秩代数簇。
- Algebraic statistics(Sturmfels, Sullivant):把概率模型直接看成代数簇 — 网络隐变量模型 = 高维 secant variety。
- Jacobian rank estimation:估计本地切空间维数 → 得到 $\dim \mathcal{M}$。
例 · MNIST 的代数模型
手写数字"3"和"8"的形变可由少数几个变量参数化(笔画粗细、倾斜、纵横比、闭合程度…)。粗略地,每个数字类对应一个低维代数簇。VAE 的潜空间 $\mathcal{Z} \cong \mathbb{R}^{10}$ 实质上就是这些代数簇的"良好坐标"。
5. 表示学习 = 寻找流形的好坐标
这是本章最简洁的口号:表示 $\Phi(x)$ 就是流形 $\mathcal{M}$ 的"局部坐标卡"。"好坐标"应满足:
- 不变性:忽略与任务无关的变换(尺度、视角、字体等)。
- 解耦(disentanglement):每个坐标对应一个独立的语义因子。
- 线性化:流形上的语义运算("国王 - 男 + 女 = 女王")变成线性操作。
- 可计算:编码器 $\Phi$ 是可微的、可被神经网络实现。
对比学习的几何(SimCLR、CLIP)
目标:拉近"语义相似"对,推远"不相似"对。 $$ \mathcal{L}_{\mathrm{con}} = -\log \frac{\exp(\mathrm{sim}(\Phi(x), \Phi(x^+)))}{\sum_{x^-} \exp(\mathrm{sim}(\Phi(x), \Phi(x^-)))}. $$ 几何效果:把流形 $\mathcal{M}$ 嵌入到单位球面,使等价类(旋转/裁剪同一图)相距很近——产生的潜空间近似为商流形 $\mathcal{M}/G$。
语言模型的 token 嵌入也是同样故事:词汇 → $\mathbb{R}^{d_{\text{model}}}$ 的几何坐标,使语义相近的词靠在一起、句法关系对应方向向量。
6. 扩散模型的几何解释
近年最火的生成模型——扩散模型(Diffusion Model)(Sohl-Dickstein 2015, Ho 2020)也有清晰的流形几何含义。
前向 / 反向扩散过程
前向:从数据 $x_0 \sim \mathcal{M}$ 出发,逐步加高斯噪声, $$ x_t = \sqrt{\bar\alpha_t}\, x_0 + \sqrt{1 - \bar\alpha_t}\,\varepsilon, \quad \varepsilon \sim \mathcal{N}(0, I). $$ 直到 $t = T$ 时 $x_T \approx \mathcal{N}(0, I)$("数据流形被噪声完全模糊")。
反向:训练神经网络 $s_\theta(x_t, t) \approx \nabla_x \log p_t(x)$(score function),通过逆 SDE $$ dx = \bigl[f(x, t) - g(t)^2\, s_\theta(x, t)\bigr] dt + g(t)\, d\bar W $$ 从噪声 $\to$ 数据流形采样。
几何视角:流形上的"投影"
扩散模型的反向过程可视作沿 score 向量场 $\nabla \log p_t$ 的梯度流。该向量场在数据流形 $\mathcal{M}$ 附近指向 $\mathcal{M}$——即每个去噪步骤 = 把当前点"投影"回低维流形(Chen-Karras-Aittala 2023 等)。
因此扩散模型实质上学到了到 $\mathcal{M}$ 的投影算子,而非一个显式的流形参数化——这是它比 VAE 更灵活的原因之一。
最近的研究(Stanczuk et al. 2024, Tempczyk et al. 2022)甚至直接用扩散模型估计数据流形的内在维数 $\dim \mathcal{M}$——通过 score 矩阵的奇异值分布。
7. 与代数几何的总结接口
↩ 流形假设的代数几何阐释
• 仿射簇维数(stage5/04)↔ 数据流形的内在维度 $d$
• 有理映射(stage5/03)↔ VAE 编码器/解码器(双有理 ≈ 可逆生成)
• 非奇异点↔ 流形的"光滑"区域(VAE 训练良好的部分)
• 商流形(GIT 商)↔ 对比学习中的等价类约商
• 切空间与法丛↔ score 向量场的方向分解
把整个 Phase 14 的理论篇连起来:
- 损失景观(00 章)—— 训练动力学的代数几何舞台
- SLT(01 章)—— 用奇点消解定量泛化
- 热带几何(02 章)—— ReLU 网络的代数本性
- 张量与等变(03 章)—— 对称性与张量分解的 secant 簇
- 流形与表示(本章)—— 数据本身就是低维代数簇
下一章(实战篇)将把这些理论工具应用到 Transformer / LLM 的几何分析——注意力机制的代数结构、上下文学习的流形动力学,以及大模型涌现能力的相变图景。
练习
- 用 Whitney 嵌入定理估计:$d$ 维紧流形可嵌入到 $\mathbb{R}^{2d+1}$。这给"潜空间维度选择"什么启发?
- 对 Swiss roll 数据,PCA 的"展开"质量与 Isomap 相比如何?画出二者的低维投影对比。
- 设 VAE 解码器 $D: \mathbb{R}^d \to \mathbb{R}^N$ 是单射光滑映射。证明:其像 $D(\mathbb{R}^d)$ 是嵌入 $d$-流形(无奇点)。
- SimCLR 损失在球面上等价于什么经典几何对象?(提示:vMF 分布)
- 若数据流形 $\mathcal{M}$ 含奇点(如两个曲面相交),扩散模型的 score 在奇点处会发生什么?查阅 Stanczuk 2024。
关键文献
- Tenenbaum 2000 A Global Geometric Framework for Nonlinear Dimensionality Reduction (Isomap).
- Kingma 2013 Auto-Encoding Variational Bayes (VAE).
- Ho 2020 Denoising Diffusion Probabilistic Models.
- Pope 2021 The Intrinsic Dimension of Images and Its Impact on Learning.
- Stanczuk 2024 Diffusion Models Encode the Intrinsic Dimension of Data Manifolds.
- Bronstein 2021 Geometric Deep Learning Blueprint.