Word2Vec 时代的著名等式 "king − man + woman ≈ queen" 让无数人惊呼:词义居然有线性结构。本章用代数几何的语言重新审视:嵌入空间中的"方向"对应线性子簇,"概念"对应仿射子空间,而不同语义类别在嵌入空间中铺开成的就是低维代数簇。
1. Word Embedding 空间的代数性质
词嵌入(Word Embedding)
一个词嵌入是映射 $$ \mathrm{emb}: \mathcal{V} \to \mathbb{R}^d, \quad w\mapsto v_w, $$ 其中 $\mathcal{V}$ 是词表。Word2Vec、GloVe、Transformer 输入嵌入都是这种映射的特例。
实证观察(Mikolov 2013、Pennington 2014):嵌入空间中存在大量近似线性的语义关系——性别、时态、单复数、首都关系等都对应一条相对稳定的方向向量。
2. King − Man + Woman ≈ Queen 的代数解释
线性类比关系
若一个语义关系 $r$ 在嵌入空间中对应方向向量 $\vec d_r$,则对所有满足关系 $r$ 的词对 $(a,b)$, $$ v_b - v_a \;\approx\; \vec d_r. $$ 于是 $v_{\text{king}} - v_{\text{man}} + v_{\text{woman}} \approx v_{\text{queen}}$。
代数几何视角:把嵌入空间中所有"国王类"词向量的位置看作集合 $X_{\text{king}}\subset\mathbb{R}^d$,"王后类" $X_{\text{queen}}$。两者通过仿射平移 $$ X_{\text{queen}} = X_{\text{king}} + \vec d_{\text{gender}} $$ 互相对应——这是一对平行的仿射子簇。
类比关系的平行四边形
3. 概念子空间 = 线性子空间
Bolukbasi 等(2016)发现:性别偏见可以通过投影到一条 1 维子空间来定位与去除。这意味着"性别"在嵌入空间中近似是一个1 维线性子空间。
线性表示假设(Linear Representation Hypothesis)
对许多自然语言概念 $c$,存在一组方向 $\{u_c^{(1)},\dots,u_c^{(k)}\}\subset\mathbb{R}^d$,使得概念 $c$ 在嵌入空间中由线性子空间 $V_c = \mathrm{span}(u_c^{(j)})$ 描述。
这一假设由 Park-Choe-Veitch (2023) 给出严格的因果性论证:在最大似然嵌入中,因果可分的概念对应正交子空间。
多个概念子空间的并行结构
4. Token 嵌入的流形结构
虽然嵌入向量住在 $\mathbb{R}^d$($d$ 通常 768~12288),但 LLM 实际只用到其中很薄的一层"皮"——这恰是 Phase 14.04 所说的流形假设。
- 能量集中:层归一化后,token 嵌入位于近似球面 $S^{d-1}$ 上;
- 低有效维数:训练后嵌入的协方差矩阵特征值衰减极快,有效维数往往只有几十;
- 各向异性:Ethayarajh (2019) 发现 BERT/GPT 的嵌入有强烈"锥形"分布——所有 token 都偏向同一方向;
- 语义簇:去掉锥之后,token 按词性、领域、情感聚成离散簇。
嵌入的"圆锥"
GPT-2 中 99% 的 token 嵌入两两余弦相似度 $> 0.5$。把这 99% 的"共同方向"剥离后,剩下的"各向异性方向"才是真正承载语义差异的子空间。
5. 嵌入聚类:代数簇的不可约分支?
在去锥化的嵌入空间中观察聚类,会发现它们不像"团块",而更像低维流形的拼接。一个大胆的假设:
嵌入流形 = 不可约分支并
训练后的 token 嵌入支撑集 $\Sigma\subset S^{d-1}$ 近似为 $$ \Sigma \;\approx\; \bigcup_{\alpha\in I} V_\alpha, $$ 其中每个 $V_\alpha$ 是一个低维不可约簇——对应一个语义类别(动词、名词、地点、动物⋯)。簇的交对应歧义词(如 "bank" = 河岸 ∩ 银行)。
嵌入支撑集:分支并的低维投影
6. 维度诅咒 vs. 代数簇维数
在 $\mathbb{R}^d$ 中均匀分布点的距离会几乎全部集中("维度诅咒")。但 LLM 嵌入并非均匀分布——它们集中在低维代数簇上。这正是嵌入空间能逃出维度诅咒的原因。
有效维数与 Krull 维数
设嵌入分布支撑在簇 $X\subset\mathbb{R}^d$ 上,$\dim X=k\ll d$。
- 距离集中:$\mathbb{E}\|v_i-v_j\|^2$ 的方差随 $k$(而非 $d$)衰减;
- 检索复杂度:近似最近邻只需 $\tilde O(k)$ 而非 $\tilde O(d)$;
- 正则化:模型只能"看见"簇内方向,等价于奇异结构提供的天然正则化(详见 08 章 SLT)。
实证
GPT-J($d = 4096$)的 token 嵌入主成分分析(PCA)结果:前 100 维解释 $\sim 90\%$ 的方差,前 500 维解释 $\sim 99\%$。换言之,"代数簇维数" $k$ 大约为 100~500,远小于 $d = 4096$。
练习
- 给定四个词向量 $v_a,v_b,v_c,v_d$。证明:$v_a - v_b = v_c - v_d$ $\iff$ $\{v_a,v_b,v_c,v_d\}$ 构成一个仿射平行四边形。
- 设 $V_{\text{gender}}\perp V_{\text{tense}}$。说明为什么"她过去走过"的词向量近似 $v_{\text{he}} + \vec d_{\text{gender}} + \vec d_{\text{past}}$。
- "bank" 同时属于 $V_{\text{place}}$ 与 $V_{\text{finance}}$,二者维数分别为 $k_1, k_2$。预期 $V_{\text{place}}\cap V_{\text{finance}}$ 的维数?给出代数几何依据(提示:dim 公式 $\dim(V_1\cap V_2)\geq \dim V_1+\dim V_2 - d$)。
- 思考:若把 token 嵌入改为单位长度,前述仿射子簇结构是否仍成立?$S^{d-1}$ 上的"线性"应改为何种概念?(提示:测地线 / 大圆)