线性映射会"晃动"整个空间——但总有一些方向,它只拉伸而不转动。这些方向就叫特征向量(Eigenvector),拉伸倍数就叫特征值(Eigenvalue)。一句话总结:
特征向量 = 矩阵作用下的"不变方向";特征值 = 在该方向上的伸缩倍率。
这一章我们要回答:怎么找到这些方向?什么样的矩阵可以被"对角化"成最简单的形式?为什么 PageRank、PCA、量子力学都离不开这个概念?
1. 特征值与特征向量
特征值与特征向量
设 $A$ 是 $n\times n$ 方阵(或 $T: V\to V$ 是线性算子)。若存在非零向量 $v\ne 0$ 与标量 $\lambda$ 使
$$A v = \lambda v$$
则称 $\lambda$ 为 $A$ 的特征值,$v$ 为对应的特征向量。注意"非零"很关键——零向量平凡地满足 $A\cdot 0 = \lambda\cdot 0$,没有任何信息。
几何含义:作用 $A$ 之后,向量 $v$ 仍躺在它原来的那条直线上,长度可能放大、缩小、甚至反向($\lambda<0$),但方向不变。
例 1:直接验证
设 $A = \begin{pmatrix} 3 & 1 \\ 0 & 2 \end{pmatrix}$,$v_1 = \begin{pmatrix}1\\0\end{pmatrix}$。计算 $A v_1 = \begin{pmatrix}3\\0\end{pmatrix} = 3 v_1$。所以 $\lambda_1 = 3$,$v_1$ 是对应的特征向量。
再取 $v_2 = \begin{pmatrix}1\\-1\end{pmatrix}$:$A v_2 = \begin{pmatrix}2\\-2\end{pmatrix} = 2 v_2$,所以 $\lambda_2 = 2$。
图解 1:特征向量是"不变方向"
2. 特征多项式
怎么把所有特征值找出来?关键观察:$Av = \lambda v$ 等价于 $(A - \lambda I) v = 0$,即 $v \in \ker(A-\lambda I)$。要让非零 $v$ 存在,就必须 $A - \lambda I$ 不可逆,即:
特征方程
$\lambda$ 是 $A$ 的特征值 $\iff$ $\det(A - \lambda I) = 0$。
$p_A(\lambda) = \det(\lambda I - A)$(或 $\det(A - \lambda I)$,差一个 $(-1)^n$)称为 $A$ 的特征多项式(characteristic polynomial)。它是 $\lambda$ 的 $n$ 次首一多项式:
$$p_A(\lambda) = \lambda^n - \mathrm{tr}(A)\,\lambda^{n-1} + \cdots + (-1)^n \det(A)$$
其根(在 $\mathbb{C}$ 上必有 $n$ 个,计重数)就是 $A$ 的所有特征值。
例 2:$2\times 2$ 计算
$A = \begin{pmatrix} 4 & 1 \\ 2 & 3 \end{pmatrix}$。
$$\det(A-\lambda I) = (4-\lambda)(3-\lambda) - 2 = \lambda^2 - 7\lambda + 10 = (\lambda-2)(\lambda-5)$$
所以特征值 $\lambda_1 = 2$、$\lambda_2 = 5$。求对应特征向量:
- $\lambda=2$:解 $(A-2I)v=0$,得 $v_1 = \begin{pmatrix}1\\-2\end{pmatrix}$
- $\lambda=5$:解 $(A-5I)v=0$,得 $v_2 = \begin{pmatrix}1\\1\end{pmatrix}$
例 3:可能出现复特征值
$R_{90°} = \begin{pmatrix}0&-1\\1&0\end{pmatrix}$。$p(\lambda)=\lambda^2+1$,根为 $\pm i$。在实数域上"没有"不变方向(旋转把每个方向都转走了);在复数域上仍有特征向量 $(1,\mp i)^\top$。这就是为什么代数学家偏爱 $\mathbb{C}$。
3. 特征空间
特征空间
对于特征值 $\lambda$,集合
$$E_\lambda = \ker(A - \lambda I) = \{ v : A v = \lambda v \}$$
称为 $\lambda$ 的特征空间(eigenspace),它是一个子空间,包含所有 $\lambda$-特征向量与零向量。
- $\lambda$ 在特征多项式中作为根的重数称为代数重数(algebraic multiplicity);
- $\dim E_\lambda$ 称为几何重数(geometric multiplicity);
- 恒有 $1\le \text{几何重数}\le \text{代数重数}$。
不同特征值的特征向量线性无关
若 $v_1, \ldots, v_k$ 分别属于互不相同的特征值 $\lambda_1, \ldots, \lambda_k$,则 $\{v_1,\ldots,v_k\}$ 线性无关。
更进一步,若所有特征值的几何重数加起来等于 $n$,则 $V = E_{\lambda_1}\oplus\cdots\oplus E_{\lambda_s}$(直和分解)。
图解 2:$\mathbb{R}^2$ 沿两条特征方向直和分解
4. 对角化(Diagonalization)
对角化
方阵 $A$ 可对角化,若存在可逆矩阵 $P$ 与对角矩阵 $D$ 使
$$A = P D P^{-1}$$
等价地,$A$ 在某组基下的矩阵表示是对角阵。
对角化的判定
$n\times n$ 矩阵 $A$ 可对角化 $\iff$ 它有 $n$ 个线性无关的特征向量 $\iff$ 各特征值的几何重数之和等于 $n$。
充分条件:$A$ 有 $n$ 个互不相同的特征值。
构造过程:把 $n$ 个特征向量按列拼成 $P=(v_1,\ldots,v_n)$,则
$$D = P^{-1} A P = \mathrm{diag}(\lambda_1, \ldots, \lambda_n)$$
图解 3:$A = PDP^{-1}$ 的三步几何流程
例 4:完整对角化
承例 2,$A=\begin{pmatrix}4&1\\2&3\end{pmatrix}$,特征值 $2, 5$,特征向量 $(1,-2)^\top, (1,1)^\top$。
$$P = \begin{pmatrix}1 & 1 \\ -2 & 1\end{pmatrix},\quad D = \begin{pmatrix}2 & 0 \\ 0 & 5\end{pmatrix},\quad A = PDP^{-1}$$
实用威力:计算 $A^{100}$ 直接 = $P\,D^{100}\,P^{-1}$,对角阵幂只是把对角元素各自取幂。
5. 谱定理(预告)
实对称矩阵的谱定理(Spectral Theorem)
设 $A$ 是 $n\times n$ 实对称矩阵($A^\top = A$)。则:
- $A$ 的所有特征值都是实数;
- 不同特征值对应的特征向量互相正交;
- $A$ 可以被正交对角化:存在正交矩阵 $Q$($Q^\top Q = I$)与对角阵 $\Lambda$ 使 $$A = Q\,\Lambda\,Q^\top$$
这是一条极其有用的定理——它告诉我们,凡是用对称矩阵刻画的二次型、协方差、内积矩阵都能被"完美对角化"。
谱定理在第 6 章(内积空间)的语言下会更加自然地展开。
6. Jordan 标准型(简介)
不是所有矩阵都可以对角化。比如 $J=\begin{pmatrix}0&1\\0&0\end{pmatrix}$,它的特征值只有 $\lambda=0$(代数重数 2,但几何重数仅 1,因为 $\ker J$ 是一维的)——少了一个特征向量。
Jordan 标准型(Jordan Canonical Form)
在复数域 $\mathbb{C}$ 上,任意方阵 $A$ 都相似于一个由若干 Jordan 块拼成的分块对角阵:
$$J = \begin{pmatrix} J_{k_1}(\lambda_1) & & \\ & \ddots & \\ & & J_{k_s}(\lambda_s) \end{pmatrix},\quad J_k(\lambda) = \begin{pmatrix} \lambda & 1 & & \\ & \lambda & \ddots & \\ & & \ddots & 1 \\ & & & \lambda \end{pmatrix}$$
当所有 Jordan 块都是 $1\times 1$ 时,就退化为对角化。Jordan 形是"最接近对角"的标准形。
7. 现实世界:PageRank = 主特征向量
Google 怎么用一个特征向量征服世界
把整个互联网的链接关系编成一个"转移矩阵" $M$:$M_{ij}$ = 从网页 $j$ 跳到网页 $i$ 的概率(均匀地把出链权重分配给被链向的页面)。
设想一个"无限耐心的浏览者"沿着随机链接漫游,他停留在各网页的稳态概率分布 $\pi$ 满足:
$$M\,\pi = \pi$$
这正是特征值 $\lambda=1$ 的特征向量方程!由 Perron–Frobenius 定理,主特征向量唯一且分量全正。$\pi_i$ 就是网页 $i$ 的"重要性分数"——这就是 PageRank。
PageRank 的实际计算是幂迭代:从任意 $\pi_0$ 出发反复 $\pi_{k+1} = M \pi_k$,由于其余特征值都满足 $|\lambda| < 1$,迭代会指数收敛到主特征向量。
8. 练习
练习 1(特征值计算)
计算 $A = \begin{pmatrix}5 & -2 \\ -2 & 5\end{pmatrix}$ 的特征值与对应特征向量,验证特征向量正交。
提示
$p(\lambda)=(5-\lambda)^2-4=(\lambda-3)(\lambda-7)$。$\lambda_1=3$ → $v_1=(1,1)^\top$;$\lambda_2=7$ → $v_2=(1,-1)^\top$。$v_1\cdot v_2=0$ ✓(谱定理预言)。
练习 2(对角化)
判断 $A=\begin{pmatrix}1&1\\0&1\end{pmatrix}$ 是否可对角化。
提示
$p(\lambda)=(1-\lambda)^2$,唯一特征值 $\lambda=1$(代数重数 2)。$\ker(A-I) = \mathrm{span}\{(1,0)^\top\}$,几何重数 = 1 < 2。不可对角化,它本身就是一个 $J_2(1)$ 形的 Jordan 块。
练习 3(矩阵幂)
给定 $A=\begin{pmatrix}2&1\\1&2\end{pmatrix}$,求 $A^{10}$。
提示
对角化:$\lambda_1=1, v_1=(1,-1)^\top$;$\lambda_2=3, v_2=(1,1)^\top$。$A^{10} = P\,\mathrm{diag}(1, 3^{10})\,P^{-1}$。$P = \frac{1}{2}\begin{pmatrix}1&1\\-1&1\end{pmatrix}^{-1}$。直接得 $A^{10}=\frac{1}{2}\begin{pmatrix}1+3^{10}&3^{10}-1\\3^{10}-1&1+3^{10}\end{pmatrix}$。
练习 4(迹与行列式)
证明:对任意可对角化方阵 $A$,$\mathrm{tr}(A) = \sum \lambda_i$、$\det(A) = \prod \lambda_i$。
提示
$\mathrm{tr}(PDP^{-1}) = \mathrm{tr}(D P^{-1} P) = \mathrm{tr}(D) = \sum \lambda_i$;$\det(PDP^{-1}) = \det D = \prod \lambda_i$。事实上对一般矩阵也成立(由特征多项式展开看出)。