嵌入空间的几何结构 — 从高中数学到代数几何

Word2Vec 时代的著名等式 "king − man + woman ≈ queen" 让无数人惊呼：词义居然有线性结构。本章用代数几何的语言重新审视：嵌入空间中的"方向"对应线性子簇，"概念"对应仿射子空间，而不同语义类别在嵌入空间中铺开成的就是低维代数簇。

1. Word Embedding 空间的代数性质

词嵌入（Word Embedding） 一个词嵌入是映射 $$ \mathrm{emb}: \mathcal{V} \to \mathbb{R}^d, \quad w\mapsto v_w, $$ 其中 $\mathcal{V}$ 是词表。Word2Vec、GloVe、Transformer 输入嵌入都是这种映射的特例。

实证观察（Mikolov 2013、Pennington 2014）：嵌入空间中存在大量近似线性的语义关系——性别、时态、单复数、首都关系等都对应一条相对稳定的方向向量。

2. King − Man + Woman ≈ Queen 的代数解释

线性类比关系 若一个语义关系 $r$ 在嵌入空间中对应方向向量 $\vec d_r$，则对所有满足关系 $r$ 的词对 $(a,b)$， $$ v_b - v_a \;\approx\; \vec d_r. $$ 于是 $v_{\text{king}} - v_{\text{man}} + v_{\text{woman}} \approx v_{\text{queen}}$。

代数几何视角：把嵌入空间中所有"国王类"词向量的位置看作集合 $X_{\text{king}}\subset\mathbb{R}^d$，"王后类" $X_{\text{queen}}$。两者通过仿射平移 $$ X_{\text{queen}} = X_{\text{king}} + \vec d_{\text{gender}} $$ 互相对应——这是一对平行的仿射子簇。

类比关系的平行四边形

3. 概念子空间 = 线性子空间

Bolukbasi 等（2016）发现：性别偏见可以通过投影到一条 1 维子空间来定位与去除。这意味着"性别"在嵌入空间中近似是一个1 维线性子空间。

线性表示假设（Linear Representation Hypothesis） 对许多自然语言概念 $c$，存在一组方向 $\{u_c^{(1)},\dots,u_c^{(k)}\}\subset\mathbb{R}^d$，使得概念 $c$ 在嵌入空间中由线性子空间 $V_c = \mathrm{span}(u_c^{(j)})$ 描述。 这一假设由 Park-Choe-Veitch (2023) 给出严格的因果性论证：在最大似然嵌入中，因果可分的概念对应正交子空间。

多个概念子空间的并行结构

4. Token 嵌入的流形结构

虽然嵌入向量住在 $\mathbb{R}^d$（$d$ 通常 768~12288），但 LLM 实际只用到其中很薄的一层"皮"——这恰是 Phase 14.04 所说的流形假设。

能量集中：层归一化后，token 嵌入位于近似球面 $S^{d-1}$ 上；
低有效维数：训练后嵌入的协方差矩阵特征值衰减极快，有效维数往往只有几十；
各向异性：Ethayarajh (2019) 发现 BERT/GPT 的嵌入有强烈"锥形"分布——所有 token 都偏向同一方向；
语义簇：去掉锥之后，token 按词性、领域、情感聚成离散簇。

嵌入的"圆锥" GPT-2 中 99% 的 token 嵌入两两余弦相似度 $> 0.5$。把这 99% 的"共同方向"剥离后，剩下的"各向异性方向"才是真正承载语义差异的子空间。

5. 嵌入聚类：代数簇的不可约分支？

在去锥化的嵌入空间中观察聚类，会发现它们不像"团块"，而更像低维流形的拼接。一个大胆的假设：

嵌入流形 = 不可约分支并 训练后的 token 嵌入支撑集 $\Sigma\subset S^{d-1}$ 近似为 $$ \Sigma \;\approx\; \bigcup_{\alpha\in I} V_\alpha, $$ 其中每个 $V_\alpha$ 是一个低维不可约簇——对应一个语义类别（动词、名词、地点、动物⋯）。簇的交对应歧义词（如 "bank" = 河岸 ∩ 银行）。

嵌入支撑集：分支并的低维投影

6. 维度诅咒 vs. 代数簇维数

在 $\mathbb{R}^d$ 中均匀分布点的距离会几乎全部集中（"维度诅咒"）。但 LLM 嵌入并非均匀分布——它们集中在低维代数簇上。这正是嵌入空间能逃出维度诅咒的原因。

有效维数与 Krull 维数 设嵌入分布支撑在簇 $X\subset\mathbb{R}^d$ 上，$\dim X=k\ll d$。 距离集中：$\mathbb{E}\|v_i-v_j\|^2$ 的方差随 $k$（而非 $d$）衰减； 检索复杂度：近似最近邻只需 $\tilde O(k)$ 而非 $\tilde O(d)$； 正则化：模型只能"看见"簇内方向，等价于奇异结构提供的天然正则化（详见 08 章 SLT）。

实证 GPT-J（$d = 4096$）的 token 嵌入主成分分析（PCA）结果：前 100 维解释 $\sim 90\%$ 的方差，前 500 维解释 $\sim 99\%$。换言之，"代数簇维数" $k$ 大约为 100~500，远小于 $d = 4096$。

练习 给定四个词向量 $v_a,v_b,v_c,v_d$。证明：$v_a - v_b = v_c - v_d$ $\iff$ $\{v_a,v_b,v_c,v_d\}$ 构成一个仿射平行四边形。 设 $V_{\text{gender}}\perp V_{\text{tense}}$。说明为什么"她过去走过"的词向量近似 $v_{\text{he}} + \vec d_{\text{gender}} + \vec d_{\text{past}}$。 "bank" 同时属于 $V_{\text{place}}$ 与 $V_{\text{finance}}$，二者维数分别为 $k_1, k_2$。预期 $V_{\text{place}}\cap V_{\text{finance}}$ 的维数？给出代数几何依据（提示：dim 公式 $\dim(V_1\cap V_2)\geq \dim V_1+\dim V_2 - d$）。 思考：若把 token 嵌入改为单位长度，前述仿射子簇结构是否仍成立？$S^{d-1}$ 上的"线性"应改为何种概念？（提示：测地线 / 大圆）

📋 前置知识

1. Word Embedding 空间的代数性质

词嵌入（Word Embedding）

2. King − Man + Woman ≈ Queen 的代数解释

线性类比关系

类比关系的平行四边形

3. 概念子空间 = 线性子空间

线性表示假设（Linear Representation Hypothesis）

多个概念子空间的并行结构

4. Token 嵌入的流形结构

嵌入的"圆锥"

5. 嵌入聚类：代数簇的不可约分支？

嵌入流形 = 不可约分支并

嵌入支撑集：分支并的低维投影

6. 维度诅咒 vs. 代数簇维数

有效维数与 Krull 维数

实证

练习