特征值与对角化(Eigenvalues & Diagonalization)

阶段1 · 线性代数 · 第5章 | 预计学习时间: 4小时 | 难度: 🟢 基础

📋 前置知识

线性映射会"晃动"整个空间——但总有一些方向,它只拉伸而不转动。这些方向就叫特征向量(Eigenvector),拉伸倍数就叫特征值(Eigenvalue)。一句话总结:

特征向量 = 矩阵作用下的"不变方向";特征值 = 在该方向上的伸缩倍率。

这一章我们要回答:怎么找到这些方向?什么样的矩阵可以被"对角化"成最简单的形式?为什么 PageRank、PCA、量子力学都离不开这个概念?

1. 特征值与特征向量

特征值与特征向量

设 $A$ 是 $n\times n$ 方阵(或 $T: V\to V$ 是线性算子)。若存在非零向量 $v\ne 0$ 与标量 $\lambda$ 使

$$A v = \lambda v$$

则称 $\lambda$ 为 $A$ 的特征值,$v$ 为对应的特征向量。注意"非零"很关键——零向量平凡地满足 $A\cdot 0 = \lambda\cdot 0$,没有任何信息。

几何含义:作用 $A$ 之后,向量 $v$ 仍躺在它原来的那条直线上,长度可能放大、缩小、甚至反向($\lambda<0$),但方向不变

例 1:直接验证

设 $A = \begin{pmatrix} 3 & 1 \\ 0 & 2 \end{pmatrix}$,$v_1 = \begin{pmatrix}1\\0\end{pmatrix}$。计算 $A v_1 = \begin{pmatrix}3\\0\end{pmatrix} = 3 v_1$。所以 $\lambda_1 = 3$,$v_1$ 是对应的特征向量。

再取 $v_2 = \begin{pmatrix}1\\-1\end{pmatrix}$:$A v_2 = \begin{pmatrix}2\\-2\end{pmatrix} = 2 v_2$,所以 $\lambda_2 = 2$。

图解 1:特征向量是"不变方向"

$\textcolor{2c3e50}{A=\begin{pmatrix}2&1\\0&3\end{pmatrix}}$ —— 特征值 $\textcolor{2c3e50}{\lambda_1=2}$(方向 $\textcolor{2c3e50}{(1,0)}$),$\textcolor{2c3e50}{\lambda_2=3}$(方向 $\textcolor{2c3e50}{(1,1)}$)
$\textcolor{2c3e50}{x}$
$\textcolor{2c3e50}{y}$
$\textcolor{5d6d7e}{v=(-1,1)}$
$\textcolor{3a7bc8}{Av=(0,3)}$ ← 转向了!
$\textcolor{e67e22}{v_1}$
$\textcolor{e67e22}{Av_1=2v_1}$(拉伸 $\textcolor{e67e22}{\times 2}$)
$\textcolor{e67e22}{v_2}$
$\textcolor{e67e22}{Av_2=3v_2}$(拉伸 $\textcolor{e67e22}{\times 3}$)
原始向量 $\textcolor{5d6d7e}{v}$
变换后 $\textcolor{3a7bc8}{Av}$(一般会转向)
特征向量(不变方向)

2. 特征多项式

怎么把所有特征值找出来?关键观察:$Av = \lambda v$ 等价于 $(A - \lambda I) v = 0$,即 $v \in \ker(A-\lambda I)$。要让非零 $v$ 存在,就必须 $A - \lambda I$ 不可逆,即:

特征方程

$\lambda$ 是 $A$ 的特征值 $\iff$ $\det(A - \lambda I) = 0$。

$p_A(\lambda) = \det(\lambda I - A)$(或 $\det(A - \lambda I)$,差一个 $(-1)^n$)称为 $A$ 的特征多项式(characteristic polynomial)。它是 $\lambda$ 的 $n$ 次首一多项式:

$$p_A(\lambda) = \lambda^n - \mathrm{tr}(A)\,\lambda^{n-1} + \cdots + (-1)^n \det(A)$$

其根(在 $\mathbb{C}$ 上必有 $n$ 个,计重数)就是 $A$ 的所有特征值。

例 2:$2\times 2$ 计算

$A = \begin{pmatrix} 4 & 1 \\ 2 & 3 \end{pmatrix}$。

$$\det(A-\lambda I) = (4-\lambda)(3-\lambda) - 2 = \lambda^2 - 7\lambda + 10 = (\lambda-2)(\lambda-5)$$

所以特征值 $\lambda_1 = 2$、$\lambda_2 = 5$。求对应特征向量:

例 3:可能出现复特征值

$R_{90°} = \begin{pmatrix}0&-1\\1&0\end{pmatrix}$。$p(\lambda)=\lambda^2+1$,根为 $\pm i$。在实数域上"没有"不变方向(旋转把每个方向都转走了);在复数域上仍有特征向量 $(1,\mp i)^\top$。这就是为什么代数学家偏爱 $\mathbb{C}$。

3. 特征空间

特征空间

对于特征值 $\lambda$,集合

$$E_\lambda = \ker(A - \lambda I) = \{ v : A v = \lambda v \}$$

称为 $\lambda$ 的特征空间(eigenspace),它是一个子空间,包含所有 $\lambda$-特征向量与零向量。

不同特征值的特征向量线性无关

若 $v_1, \ldots, v_k$ 分别属于互不相同的特征值 $\lambda_1, \ldots, \lambda_k$,则 $\{v_1,\ldots,v_k\}$ 线性无关。

更进一步,若所有特征值的几何重数加起来等于 $n$,则 $V = E_{\lambda_1}\oplus\cdots\oplus E_{\lambda_s}$(直和分解)。

图解 2:$\mathbb{R}^2$ 沿两条特征方向直和分解

$\textcolor{c0392b}{E_{\lambda_1}}$(一维直线)
$\textcolor{1e7e34}{E_{\lambda_2}}$(一维直线)
$\textcolor{3a7bc8}{v}$
$\textcolor{c0392b}{v_{\lambda_1}}$
$\textcolor{1e7e34}{v_{\lambda_2}}$
$\textcolor{2c3e50}{\mathbb{R}^2 = E_{\lambda_1} \oplus E_{\lambda_2}}$ :每个向量唯一地分解为两条特征方向上的分量

4. 对角化(Diagonalization)

对角化

方阵 $A$ 可对角化,若存在可逆矩阵 $P$ 与对角矩阵 $D$ 使

$$A = P D P^{-1}$$

等价地,$A$ 在某组基下的矩阵表示是对角阵。

对角化的判定

$n\times n$ 矩阵 $A$ 可对角化 $\iff$ 它有 $n$ 个线性无关的特征向量 $\iff$ 各特征值的几何重数之和等于 $n$。

充分条件:$A$ 有 $n$ 个互不相同的特征值。

构造过程:把 $n$ 个特征向量按列拼成 $P=(v_1,\ldots,v_n)$,则

$$D = P^{-1} A P = \mathrm{diag}(\lambda_1, \ldots, \lambda_n)$$

图解 3:$A = PDP^{-1}$ 的三步几何流程

① 标准坐标 $\textcolor{2c3e50}{v}$
原始空间
$\textcolor{3a7bc8}{P^{-1}}$
换到特征基
② 特征基坐标
坐标轴 = 特征向量
$\textcolor{3a7bc8}{D}$
沿轴拉伸
③ 沿轴对角缩放
$\textcolor{e67e22}{\times \lambda_i}$ 在第 $\textcolor{e67e22}{i}$ 个轴
$\textcolor{3a7bc8}{P}$
换回原坐标
④ 标准坐标 $\textcolor{2c3e50}{Av}$
$\textcolor{5d6d7e}{Av}$ 在原坐标
$\textcolor{2c3e50}{Av = P\,D\,P^{-1}\,v}$ |复杂的混合变换 = "换基 → 沿轴拉伸 → 换回"

例 4:完整对角化

承例 2,$A=\begin{pmatrix}4&1\\2&3\end{pmatrix}$,特征值 $2, 5$,特征向量 $(1,-2)^\top, (1,1)^\top$。

$$P = \begin{pmatrix}1 & 1 \\ -2 & 1\end{pmatrix},\quad D = \begin{pmatrix}2 & 0 \\ 0 & 5\end{pmatrix},\quad A = PDP^{-1}$$

实用威力:计算 $A^{100}$ 直接 = $P\,D^{100}\,P^{-1}$,对角阵幂只是把对角元素各自取幂。

5. 谱定理(预告)

实对称矩阵的谱定理(Spectral Theorem)

设 $A$ 是 $n\times n$ 实对称矩阵($A^\top = A$)。则:

  1. $A$ 的所有特征值都是实数
  2. 不同特征值对应的特征向量互相正交
  3. $A$ 可以被正交对角化:存在正交矩阵 $Q$($Q^\top Q = I$)与对角阵 $\Lambda$ 使 $$A = Q\,\Lambda\,Q^\top$$

这是一条极其有用的定理——它告诉我们,凡是用对称矩阵刻画的二次型、协方差、内积矩阵都能被"完美对角化"。

谱定理在第 6 章(内积空间)的语言下会更加自然地展开。

6. Jordan 标准型(简介)

不是所有矩阵都可以对角化。比如 $J=\begin{pmatrix}0&1\\0&0\end{pmatrix}$,它的特征值只有 $\lambda=0$(代数重数 2,但几何重数仅 1,因为 $\ker J$ 是一维的)——少了一个特征向量。

Jordan 标准型(Jordan Canonical Form)

在复数域 $\mathbb{C}$ 上,任意方阵 $A$ 都相似于一个由若干 Jordan 块拼成的分块对角阵:

$$J = \begin{pmatrix} J_{k_1}(\lambda_1) & & \\ & \ddots & \\ & & J_{k_s}(\lambda_s) \end{pmatrix},\quad J_k(\lambda) = \begin{pmatrix} \lambda & 1 & & \\ & \lambda & \ddots & \\ & & \ddots & 1 \\ & & & \lambda \end{pmatrix}$$

当所有 Jordan 块都是 $1\times 1$ 时,就退化为对角化。Jordan 形是"最接近对角"的标准形。

7. 现实世界:PageRank = 主特征向量

Google 怎么用一个特征向量征服世界

把整个互联网的链接关系编成一个"转移矩阵" $M$:$M_{ij}$ = 从网页 $j$ 跳到网页 $i$ 的概率(均匀地把出链权重分配给被链向的页面)。

设想一个"无限耐心的浏览者"沿着随机链接漫游,他停留在各网页的稳态概率分布 $\pi$ 满足:

$$M\,\pi = \pi$$

这正是特征值 $\lambda=1$ 的特征向量方程!由 Perron–Frobenius 定理,主特征向量唯一且分量全正。$\pi_i$ 就是网页 $i$ 的"重要性分数"——这就是 PageRank。

PageRank 的实际计算是幂迭代:从任意 $\pi_0$ 出发反复 $\pi_{k+1} = M \pi_k$,由于其余特征值都满足 $|\lambda| < 1$,迭代会指数收敛到主特征向量。

8. 练习

练习 1(特征值计算)

计算 $A = \begin{pmatrix}5 & -2 \\ -2 & 5\end{pmatrix}$ 的特征值与对应特征向量,验证特征向量正交。

提示

$p(\lambda)=(5-\lambda)^2-4=(\lambda-3)(\lambda-7)$。$\lambda_1=3$ → $v_1=(1,1)^\top$;$\lambda_2=7$ → $v_2=(1,-1)^\top$。$v_1\cdot v_2=0$ ✓(谱定理预言)。

练习 2(对角化)

判断 $A=\begin{pmatrix}1&1\\0&1\end{pmatrix}$ 是否可对角化。

提示

$p(\lambda)=(1-\lambda)^2$,唯一特征值 $\lambda=1$(代数重数 2)。$\ker(A-I) = \mathrm{span}\{(1,0)^\top\}$,几何重数 = 1 < 2。不可对角化,它本身就是一个 $J_2(1)$ 形的 Jordan 块。

练习 3(矩阵幂)

给定 $A=\begin{pmatrix}2&1\\1&2\end{pmatrix}$,求 $A^{10}$。

提示

对角化:$\lambda_1=1, v_1=(1,-1)^\top$;$\lambda_2=3, v_2=(1,1)^\top$。$A^{10} = P\,\mathrm{diag}(1, 3^{10})\,P^{-1}$。$P = \frac{1}{2}\begin{pmatrix}1&1\\-1&1\end{pmatrix}^{-1}$。直接得 $A^{10}=\frac{1}{2}\begin{pmatrix}1+3^{10}&3^{10}-1\\3^{10}-1&1+3^{10}\end{pmatrix}$。

练习 4(迹与行列式)

证明:对任意可对角化方阵 $A$,$\mathrm{tr}(A) = \sum \lambda_i$、$\det(A) = \prod \lambda_i$。

提示

$\mathrm{tr}(PDP^{-1}) = \mathrm{tr}(D P^{-1} P) = \mathrm{tr}(D) = \sum \lambda_i$;$\det(PDP^{-1}) = \det D = \prod \lambda_i$。事实上对一般矩阵也成立(由特征多项式展开看出)。