特征值与对角化 — 从高中数学到代数几何

线性映射会"晃动"整个空间——但总有一些方向，它只拉伸而不转动。这些方向就叫特征向量（Eigenvector），拉伸倍数就叫特征值（Eigenvalue）。一句话总结：

特征向量 = 矩阵作用下的"不变方向"；特征值 = 在该方向上的伸缩倍率。

这一章我们要回答：怎么找到这些方向？什么样的矩阵可以被"对角化"成最简单的形式？为什么 PageRank、PCA、量子力学都离不开这个概念？

1. 特征值与特征向量

特征值与特征向量 设 $A$ 是 $n\times n$ 方阵（或 $T: V\to V$ 是线性算子）。若存在非零向量 $v\ne 0$ 与标量 $\lambda$ 使 $$A v = \lambda v$$ 则称 $\lambda$ 为 $A$ 的特征值，$v$ 为对应的特征向量。注意"非零"很关键——零向量平凡地满足 $A\cdot 0 = \lambda\cdot 0$，没有任何信息。

几何含义：作用 $A$ 之后，向量 $v$ 仍躺在它原来的那条直线上，长度可能放大、缩小、甚至反向（$\lambda<0$），但方向不变。

例 1：直接验证 设 $A = \begin{pmatrix} 3 & 1 \\ 0 & 2 \end{pmatrix}$，$v_1 = \begin{pmatrix}1\\0\end{pmatrix}$。计算 $A v_1 = \begin{pmatrix}3\\0\end{pmatrix} = 3 v_1$。所以 $\lambda_1 = 3$，$v_1$ 是对应的特征向量。 再取 $v_2 = \begin{pmatrix}1\\-1\end{pmatrix}$：$A v_2 = \begin{pmatrix}2\\-2\end{pmatrix} = 2 v_2$，所以 $\lambda_2 = 2$。

图解 1：特征向量是"不变方向"

2. 特征多项式

怎么把所有特征值找出来？关键观察：$Av = \lambda v$ 等价于 $(A - \lambda I) v = 0$，即 $v \in \ker(A-\lambda I)$。要让非零 $v$ 存在，就必须 $A - \lambda I$ 不可逆，即：

特征方程 $\lambda$ 是 $A$ 的特征值 $\iff$ $\det(A - \lambda I) = 0$。 $p_A(\lambda) = \det(\lambda I - A)$（或 $\det(A - \lambda I)$，差一个 $(-1)^n$）称为 $A$ 的特征多项式（characteristic polynomial）。它是 $\lambda$ 的 $n$ 次首一多项式： $$p_A(\lambda) = \lambda^n - \mathrm{tr}(A)\,\lambda^{n-1} + \cdots + (-1)^n \det(A)$$ 其根（在 $\mathbb{C}$ 上必有 $n$ 个，计重数）就是 $A$ 的所有特征值。

例 2：$2\times 2$ 计算 $A = \begin{pmatrix} 4 & 1 \\ 2 & 3 \end{pmatrix}$。 $$\det(A-\lambda I) = (4-\lambda)(3-\lambda) - 2 = \lambda^2 - 7\lambda + 10 = (\lambda-2)(\lambda-5)$$ 所以特征值 $\lambda_1 = 2$、$\lambda_2 = 5$。求对应特征向量： $\lambda=2$：解 $(A-2I)v=0$，得 $v_1 = \begin{pmatrix}1\\-2\end{pmatrix}$ $\lambda=5$：解 $(A-5I)v=0$，得 $v_2 = \begin{pmatrix}1\\1\end{pmatrix}$

例 3：可能出现复特征值 $R_{90°} = \begin{pmatrix}0&-1\\1&0\end{pmatrix}$。$p(\lambda)=\lambda^2+1$，根为 $\pm i$。在实数域上"没有"不变方向（旋转把每个方向都转走了）；在复数域上仍有特征向量 $(1,\mp i)^\top$。这就是为什么代数学家偏爱 $\mathbb{C}$。

3. 特征空间

特征空间 对于特征值 $\lambda$，集合 $$E_\lambda = \ker(A - \lambda I) = \{ v : A v = \lambda v \}$$ 称为 $\lambda$ 的特征空间（eigenspace），它是一个子空间，包含所有 $\lambda$-特征向量与零向量。 $\lambda$ 在特征多项式中作为根的重数称为代数重数（algebraic multiplicity）； $\dim E_\lambda$ 称为几何重数（geometric multiplicity）； 恒有 $1\le \text{几何重数}\le \text{代数重数}$。

不同特征值的特征向量线性无关 若 $v_1, \ldots, v_k$ 分别属于互不相同的特征值 $\lambda_1, \ldots, \lambda_k$，则 $\{v_1,\ldots,v_k\}$ 线性无关。 更进一步，若所有特征值的几何重数加起来等于 $n$，则 $V = E_{\lambda_1}\oplus\cdots\oplus E_{\lambda_s}$（直和分解）。

图解 2：$\mathbb{R}^2$ 沿两条特征方向直和分解

4. 对角化（Diagonalization）

对角化 方阵 $A$ 可对角化，若存在可逆矩阵 $P$ 与对角矩阵 $D$ 使 $$A = P D P^{-1}$$ 等价地，$A$ 在某组基下的矩阵表示是对角阵。

对角化的判定 $n\times n$ 矩阵 $A$ 可对角化 $\iff$ 它有 $n$ 个线性无关的特征向量 $\iff$ 各特征值的几何重数之和等于 $n$。 充分条件：$A$ 有 $n$ 个互不相同的特征值。 构造过程：把 $n$ 个特征向量按列拼成 $P=(v_1,\ldots,v_n)$，则 $$D = P^{-1} A P = \mathrm{diag}(\lambda_1, \ldots, \lambda_n)$$

图解 3：$A = PDP^{-1}$ 的三步几何流程

例 4：完整对角化 承例 2，$A=\begin{pmatrix}4&1\\2&3\end{pmatrix}$，特征值 $2, 5$，特征向量 $(1,-2)^\top, (1,1)^\top$。 $$P = \begin{pmatrix}1 & 1 \\ -2 & 1\end{pmatrix},\quad D = \begin{pmatrix}2 & 0 \\ 0 & 5\end{pmatrix},\quad A = PDP^{-1}$$ 实用威力：计算 $A^{100}$ 直接 = $P\,D^{100}\,P^{-1}$，对角阵幂只是把对角元素各自取幂。

5. 谱定理（预告）

实对称矩阵的谱定理（Spectral Theorem） 设 $A$ 是 $n\times n$ 实对称矩阵（$A^\top = A$）。则： $A$ 的所有特征值都是实数； 不同特征值对应的特征向量互相正交； $A$ 可以被正交对角化：存在正交矩阵 $Q$（$Q^\top Q = I$）与对角阵 $\Lambda$ 使 $$A = Q\,\Lambda\,Q^\top$$ 这是一条极其有用的定理——它告诉我们，凡是用对称矩阵刻画的二次型、协方差、内积矩阵都能被"完美对角化"。

谱定理在第 6 章（内积空间）的语言下会更加自然地展开。

6. Jordan 标准型（简介）

不是所有矩阵都可以对角化。比如 $J=\begin{pmatrix}0&1\\0&0\end{pmatrix}$，它的特征值只有 $\lambda=0$（代数重数 2，但几何重数仅 1，因为 $\ker J$ 是一维的）——少了一个特征向量。

Jordan 标准型（Jordan Canonical Form） 在复数域 $\mathbb{C}$ 上，任意方阵 $A$ 都相似于一个由若干 Jordan 块拼成的分块对角阵： $$J = \begin{pmatrix} J_{k_1}(\lambda_1) & & \\ & \ddots & \\ & & J_{k_s}(\lambda_s) \end{pmatrix},\quad J_k(\lambda) = \begin{pmatrix} \lambda & 1 & & \\ & \lambda & \ddots & \\ & & \ddots & 1 \\ & & & \lambda \end{pmatrix}$$ 当所有 Jordan 块都是 $1\times 1$ 时，就退化为对角化。Jordan 形是"最接近对角"的标准形。

7. 现实世界：PageRank = 主特征向量

Google 怎么用一个特征向量征服世界 把整个互联网的链接关系编成一个"转移矩阵" $M$：$M_{ij}$ = 从网页 $j$ 跳到网页 $i$ 的概率（均匀地把出链权重分配给被链向的页面）。 设想一个"无限耐心的浏览者"沿着随机链接漫游，他停留在各网页的稳态概率分布 $\pi$ 满足： $$M\,\pi = \pi$$ 这正是特征值 $\lambda=1$ 的特征向量方程！由 Perron–Frobenius 定理，主特征向量唯一且分量全正。$\pi_i$ 就是网页 $i$ 的"重要性分数"——这就是 PageRank。 PageRank 的实际计算是幂迭代：从任意 $\pi_0$ 出发反复 $\pi_{k+1} = M \pi_k$，由于其余特征值都满足 $|\lambda| < 1$，迭代会指数收敛到主特征向量。

8. 练习

练习 1（特征值计算） 计算 $A = \begin{pmatrix}5 & -2 \\ -2 & 5\end{pmatrix}$ 的特征值与对应特征向量，验证特征向量正交。 提示 $p(\lambda)=(5-\lambda)^2-4=(\lambda-3)(\lambda-7)$。$\lambda_1=3$ → $v_1=(1,1)^\top$；$\lambda_2=7$ → $v_2=(1,-1)^\top$。$v_1\cdot v_2=0$ ✓（谱定理预言）。

练习 2（对角化） 判断 $A=\begin{pmatrix}1&1\\0&1\end{pmatrix}$ 是否可对角化。 提示 $p(\lambda)=(1-\lambda)^2$，唯一特征值 $\lambda=1$（代数重数 2）。$\ker(A-I) = \mathrm{span}\{(1,0)^\top\}$，几何重数 = 1 < 2。不可对角化，它本身就是一个 $J_2(1)$ 形的 Jordan 块。

练习 3（矩阵幂） 给定 $A=\begin{pmatrix}2&1\\1&2\end{pmatrix}$，求 $A^{10}$。 提示 对角化：$\lambda_1=1, v_1=(1,-1)^\top$；$\lambda_2=3, v_2=(1,1)^\top$。$A^{10} = P\,\mathrm{diag}(1, 3^{10})\,P^{-1}$。$P = \frac{1}{2}\begin{pmatrix}1&1\\-1&1\end{pmatrix}^{-1}$。直接得 $A^{10}=\frac{1}{2}\begin{pmatrix}1+3^{10}&3^{10}-1\\3^{10}-1&1+3^{10}\end{pmatrix}$。

练习 4（迹与行列式） 证明：对任意可对角化方阵 $A$，$\mathrm{tr}(A) = \sum \lambda_i$、$\det(A) = \prod \lambda_i$。 提示 $\mathrm{tr}(PDP^{-1}) = \mathrm{tr}(D P^{-1} P) = \mathrm{tr}(D) = \sum \lambda_i$；$\det(PDP^{-1}) = \det D = \prod \lambda_i$。事实上对一般矩阵也成立（由特征多项式展开看出）。

特征值与对角化（Eigenvalues & Diagonalization）

📋 前置知识

1. 特征值与特征向量

特征值与特征向量

例 1：直接验证

图解 1：特征向量是"不变方向"

2. 特征多项式

特征方程

例 2：$2\times 2$ 计算

例 3：可能出现复特征值

3. 特征空间

特征空间

不同特征值的特征向量线性无关

图解 2：$\mathbb{R}^2$ 沿两条特征方向直和分解

4. 对角化（Diagonalization）

对角化

对角化的判定

图解 3：$A = PDP^{-1}$ 的三步几何流程

例 4：完整对角化

5. 谱定理（预告）

实对称矩阵的谱定理（Spectral Theorem）

6. Jordan 标准型（简介）

Jordan 标准型（Jordan Canonical Form）

7. 现实世界：PageRank = 主特征向量

Google 怎么用一个特征向量征服世界

8. 练习

练习 1（特征值计算）

练习 2（对角化）

练习 3（矩阵幂）

练习 4（迹与行列式）