嵌入空间的几何结构

阶段7 · LLM 应用 | 难度: 🟡 进阶

📋 前置知识

Word2Vec 时代的著名等式 "king − man + woman ≈ queen" 让无数人惊呼:词义居然有线性结构。本章用代数几何的语言重新审视:嵌入空间中的"方向"对应线性子簇,"概念"对应仿射子空间,而不同语义类别在嵌入空间中铺开成的就是低维代数簇

1. Word Embedding 空间的代数性质

词嵌入(Word Embedding)

一个词嵌入是映射 $$ \mathrm{emb}: \mathcal{V} \to \mathbb{R}^d, \quad w\mapsto v_w, $$ 其中 $\mathcal{V}$ 是词表。Word2Vec、GloVe、Transformer 输入嵌入都是这种映射的特例。

实证观察(Mikolov 2013、Pennington 2014):嵌入空间中存在大量近似线性的语义关系——性别、时态、单复数、首都关系等都对应一条相对稳定的方向向量。

2. King − Man + Woman ≈ Queen 的代数解释

线性类比关系

若一个语义关系 $r$ 在嵌入空间中对应方向向量 $\vec d_r$,则对所有满足关系 $r$ 的词对 $(a,b)$, $$ v_b - v_a \;\approx\; \vec d_r. $$ 于是 $v_{\text{king}} - v_{\text{man}} + v_{\text{woman}} \approx v_{\text{queen}}$。

代数几何视角:把嵌入空间中所有"国王类"词向量的位置看作集合 $X_{\text{king}}\subset\mathbb{R}^d$,"王后类" $X_{\text{queen}}$。两者通过仿射平移 $$ X_{\text{queen}} = X_{\text{king}} + \vec d_{\text{gender}} $$ 互相对应——这是一对平行的仿射子簇

类比关系的平行四边形

man
woman
king
queen
$\textcolor{e67e22}{\vec d_{\text{gender}}}$
$\textcolor{e67e22}{\vec d_{\text{gender}}}$
$\textcolor{8e44ad}{\vec d_{\text{royal}}}$
$\textcolor{2c3e50}{v_{\text{queen}} - v_{\text{king}} \;\approx\; v_{\text{woman}} - v_{\text{man}} \;=\; \vec d_{\text{gender}}}$

3. 概念子空间 = 线性子空间

Bolukbasi 等(2016)发现:性别偏见可以通过投影到一条 1 维子空间来定位与去除。这意味着"性别"在嵌入空间中近似是一个1 维线性子空间

线性表示假设(Linear Representation Hypothesis)

对许多自然语言概念 $c$,存在一组方向 $\{u_c^{(1)},\dots,u_c^{(k)}\}\subset\mathbb{R}^d$,使得概念 $c$ 在嵌入空间中由线性子空间 $V_c = \mathrm{span}(u_c^{(j)})$ 描述。

这一假设由 Park-Choe-Veitch (2023) 给出严格的因果性论证:在最大似然嵌入中,因果可分的概念对应正交子空间。

多个概念子空间的并行结构

$\textcolor{2c3e50}{0}$
性别 (gender)
she
he
时态 (tense)
walked
walks
单复数 (number)
情感 (sentiment)
每个语义维度对应一条 1 维子空间——多概念近似正交,叠加成 token 嵌入的整体方向

4. Token 嵌入的流形结构

虽然嵌入向量住在 $\mathbb{R}^d$($d$ 通常 768~12288),但 LLM 实际只用到其中很薄的一层"皮"——这恰是 Phase 14.04 所说的流形假设

嵌入的"圆锥"

GPT-2 中 99% 的 token 嵌入两两余弦相似度 $> 0.5$。把这 99% 的"共同方向"剥离后,剩下的"各向异性方向"才是真正承载语义差异的子空间。

5. 嵌入聚类:代数簇的不可约分支?

在去锥化的嵌入空间中观察聚类,会发现它们不像"团块",而更像低维流形的拼接。一个大胆的假设:

嵌入流形 = 不可约分支并

训练后的 token 嵌入支撑集 $\Sigma\subset S^{d-1}$ 近似为 $$ \Sigma \;\approx\; \bigcup_{\alpha\in I} V_\alpha, $$ 其中每个 $V_\alpha$ 是一个低维不可约簇——对应一个语义类别(动词、名词、地点、动物⋯)。簇的对应歧义词(如 "bank" = 河岸 ∩ 银行)。

嵌入支撑集:分支并的低维投影

动物 $\textcolor{e67e22}{V_{\text{animal}}}$
cat
dog
地点 $\textcolor{8e44ad}{V_{\text{place}}}$
动词 $\textcolor{27ae60}{V_{\text{verb}}}$
金融 $\textcolor{e74c3c}{V_{\text{finance}}}$
"bank" 歧义点
$\textcolor{4a90d9}{S^{d-1}}$ 嵌入支撑
不可约分支并 $\textcolor{2c3e50}{\Sigma=\bigcup_\alpha V_\alpha}$ —— 簇的交集对应歧义词

6. 维度诅咒 vs. 代数簇维数

在 $\mathbb{R}^d$ 中均匀分布点的距离会几乎全部集中("维度诅咒")。但 LLM 嵌入并非均匀分布——它们集中在低维代数簇上。这正是嵌入空间能逃出维度诅咒的原因。

有效维数与 Krull 维数

设嵌入分布支撑在簇 $X\subset\mathbb{R}^d$ 上,$\dim X=k\ll d$。

实证

GPT-J($d = 4096$)的 token 嵌入主成分分析(PCA)结果:前 100 维解释 $\sim 90\%$ 的方差,前 500 维解释 $\sim 99\%$。换言之,"代数簇维数" $k$ 大约为 100~500,远小于 $d = 4096$。

练习

  1. 给定四个词向量 $v_a,v_b,v_c,v_d$。证明:$v_a - v_b = v_c - v_d$ $\iff$ $\{v_a,v_b,v_c,v_d\}$ 构成一个仿射平行四边形。
  2. 设 $V_{\text{gender}}\perp V_{\text{tense}}$。说明为什么"她过去走过"的词向量近似 $v_{\text{he}} + \vec d_{\text{gender}} + \vec d_{\text{past}}$。
  3. "bank" 同时属于 $V_{\text{place}}$ 与 $V_{\text{finance}}$,二者维数分别为 $k_1, k_2$。预期 $V_{\text{place}}\cap V_{\text{finance}}$ 的维数?给出代数几何依据(提示:dim 公式 $\dim(V_1\cap V_2)\geq \dim V_1+\dim V_2 - d$)。
  4. 思考:若把 token 嵌入改为单位长度,前述仿射子簇结构是否仍成立?$S^{d-1}$ 上的"线性"应改为何种概念?(提示:测地线 / 大圆)