代数——第5章——线性算子之应用(Michael Artin)

第 5 章线性算子之应用

(Applications of Linear Operators)

By relieving the brain from all unnecessary work,

a good notation sets it free to concentrate

on more advanced problems.( 通过减轻大脑所有不必要的工作，良好的符号可以让大脑集中精力解决更高级的问题)

------------------------------------------------ Alfred North Whitehead

5.1 正交矩阵和旋转(Orthogonal matrices and rotations)

5.2 使用连续性(Using continuity)

5.3 微分方程组(Systems of differential equations)

5.4 矩阵指数(The matrix exponential)(矩阵作为指数)

5.1 正交矩阵和旋转(Orthogonal matrices and rotations)

在本节中，标量域是实数域。

我们假设读者已熟悉 $\mathbb{R}^{2}$ 中向量的点积(译注：又称点乘，标量积，内积)， $\mathbb{R}^{n}$ 中的列向量 $X=(x_{1},...,x_{n})^{t}$ 和 $Y=(y_{1},...,y_{n})^{t}$ 的点积定义为

(5.1.1) $( X. Y ) = x_{1} y_{1} + ... + x_{n} y_{n}$ 。

出于方便，我们将点积记为一个行向量和一个列向量的矩阵积

(5.1.2) $( X. Y ) = X^{t} Y$ 。

对于 $\mathbb{R}^{2}$ 中的向量，我们有公式

(5.1.3) $( X. Y ) = | X || Y |\cos(\theta)$ ,

其中，θ 是这两个向量之间的夹解。此公式可通过余弦定律导出，即一个三角形的三边 a，b , c 和边 a 和 b 的夹解 θ 之间存在关系

(5.1.4) $c^{2} = a^{2} + b^{2} - 2ab\cos(\theta)$ 。

为了推导出 (5.1.3) ，我们将余弦定委应用于顶点分别为 0，X，Y 的三角形。其边长分别为 | X |，| Y |，| X - Y | , 因此，其余弦定律可以写成

(5.1.5) $((X - Y ).( X - Y )) = ( X. X ) + ( Y. Y ) + 2| X || Y |\cos(\theta)$ 。

上式左边展开为 ( X. X ) -2(X. Y) + ( Y. Y ) ，并将其与右边进行比较，从而得到公式(5.1.3)。此公式对 $\mathbb{R}^{n}$ 中的向量同样成立，但要求理解其角度的含义。但我们现在不讨论这个问题(参见(8.5.2))。

对 $\mathbb{R}^{2}$ 和 $\mathbb{R}^{3}$ 中的向量而言最重要的意义在于：

• 一个向量 X 的长度之平方 $X^{2}$ 是 $(X , X ) = X^{t} X$ 。和

• 对于两个向量 X 和 Y ，当且仅当 $X^{t} Y = 0$ 时，此二向量是正交的(orthogonal)，记为 X ⟂ Y 。

(译注：向量的正交意味着二向量的方向之间没有相似性，因此一个向量在另一个向量上的投影为零,即点积为0 。)

我们将上述两条分别视为 $\mathbb{R}^{n}$ 中向量之间正交性和单向量长度(点积开根号)的定义。注意，向量的长度 | X | 是正值(除非其为0向量)，因为 $X^{2} = X^{t} X = x_{1}^{2} + ...+ x_{n}^{2}$ 是平方之和(译注：此解释欠妥，度量长度当然是正值，不能用长度的平方去解释其长度是正值，因为长度是内积开方之后的值，而内积是长度的平方 )。

定理 5.1.5 (Pythagoras定理) 若 X ⟂ Y 且 Z = X + Y ，则 $Z^{2} = X^{2} + Y^{2}$ 。

将 $Z^{t}Z$ 展开即可证明。若 X ⟂ Y ，则 $X^{t}Y = Y^{t}X = 0$ ，因此

$Z^{t}Z = (X + Y)^{t}( X + Y ) = X^{t} X + X^{t} Y + Y^{t}X + Y^{t} Y = X^{t} X + Y^{t} Y$ 。

我们切换到小写的向量记法。若 $v_{1} ,..., v_{k}$ 是 $\mathbb{R}^{n}$ 中的正交向量，若 $w = v_{1} + ... + v_{k}$ ，则根据Pythagoras 定理用归纳法可证明

(5.1.6) $w^{2} = |v_{1} |^{2} + ... + |v_{n} |^{2}$ 。

引理 5.1.7 $\mathbb{R}^{n}$ 中的正交非零向量的任意集合 $( v_{1} ,... , v_{k} )$ 都是独立的(译注：即线性无关的 )。证明：

令 $w = c_{1} v_{1} + ... + c_{k} v_{k}$ 为一个线性组合，其中，并非所有 $c_{i}$ 都为零，并令 $w_{i}=c_{i}v_{i}$ 。则 w 是正交向量(并非所有项都为0)之和 $w_{1} + ... + w_{k}$ 。根据 Pythagoras 定理，有 $|w|^{2} = |w_1 |^{2} + ... + |w_k |^{2} > 0$ , 因此 w ≠ 0 。

• $\mathbb{R}^{n}$ 的一个正交基 $\mathbf{B} = (v_{1} ,..., v_{n})$ 是正交单位向量(长度为1)的一个基。可用另一种方式表述此思想：若

(5.1.8) $(v_{i}. v_{j}) = \delta_{ij}$

(其中， $\delta_{ij}$ 是Kronecker δ ，是恒等矩阵的第 i, j 项，当 i = j 时其值为1，而当 i ≠ j 时其为0)，则 B 是正交单位向量的一个基。

定义 5.1.9 对于一个实 n × n 矩阵A , 若 $A^{t}A = I$ ，则其是正交的，即矩阵 A 可逆且其逆是。

引理 5.1.10 对于一个实 n × n 矩阵，当且仅当其列构成 $\mathbb{R}^{n}$ 的一个正交基时，此矩阵是正交的。

证明：

令 $A_{i}$ 表示 A 的第 i 列。则 $A_{i}^{t}$ 是 $A^{t}$ 的第 i 行。 $A^{t}A$ 的第 i, j 项是 $A_{i}^{t}A_{j}$ ,因此，当且仅当对于所有 i 和 j , 都有 $A_{i}^{t} A_{j} = \delta_{ij}$ 时， $A^{t}A = I$ 。

不难验证正交矩阵具有下列属性：

命题 5.1.11

(a) 正交矩阵之积是正交的，一个正交矩阵之逆(其转置，即行变为列)是正交的。正交矩阵构成了 $GL_{n}$ 的一个子群 $O_{n}$ (译注：取orthogonality这个单词的首字母命名),称为正交群。

(b) 一个正交矩阵的行列式是 ±1 。行列式为 1 的正交矩阵构成了一个二阶正交群 $O_{n}$ 的一个子群 $SO_{n}$ ，称为特殊正交群(special orthogonal group)。

定义 5.1.12 $\mathbb{R}^{n}$ 上的一个正交算子 T 是一个保留了点积的线性算子：对于每一个向量对 X ,Y ，有

( TX • TY ) = (X • Y ) 。

命题 5.1.13 对于 $\mathbb{R}^{n}$ 上的一个线性算子T ，当且仅当其保留向量长度或对于每一个向量X ,有 ( TX • TX ) = (X • X ) 时，其是正交算子。

证明：

假设线性算子保留长度，令 X 和 Y 为 $\mathbb{R}^{n}$ 中的任意向量。则

( T(X+Y ) • T(X+Y ) ) = ((X+Y ) •(X+Y ) ) 。

根据 ( TX • TY ) = (X • Y )，通过将上述等式两边展开并抵消相关项而证明命题。

命题 5.1.14 对于 $\mathbb{R}^{n}$ 上的一个线性算子T ，当且仅且其关于标准基的矩阵 A 是一个正交矩阵时，此算子是正交的。

证明：

若 A 是 T 的一个矩阵，则

$( TX {\cdot } TY ) = (AX)^{t} (AY ) = X^{t} (A^{t}A)Y$ 。

当且仅当对于所有 X 和 Y ，上式右边等于 $X^{t}Y$ 时，这个算子是正交的。我们可以将这个条件写成 $X^{t} (A^{t}A -I )Y = 0$ 。下一个引理表明，当且仅当 $A^{t}A -I=0$ 时,这个条件是成立的，从而 A 是正交的。

引理 5.1.15 令 M 为 n × n 矩阵。若对于所有的列向量 X 和 Y ，都有 $X^{t}MY=0$ , 则 M = 0 (译注，即零矩阵 [0] )。

证明：

对 M 的 i, j 项计算乘积 $e_{i}^{t}Me_{j}$ 。例如

$\begin{bmatrix} 0&1 \end{bmatrix} \begin{bmatrix} m_{11}&m_{12}\\ m_{21}&m_{22} \end{bmatrix} \begin{bmatrix} 1\\0 \end{bmatrix}=m_{21}$ 。

(译注：上述例子有误，列向量 $\begin{bmatrix} 1\\0 \end{bmatrix}$ 的转置是 [1,0] ，因此上式应该是

$\begin{bmatrix} 1&0 \end{bmatrix} \begin{bmatrix} m_{11}&m_{12}\\ m_{21}&m_{22} \end{bmatrix} \begin{bmatrix} 1\\0 \end{bmatrix}=m_{11}$ 。

)

若对于所有 i, j 有 $e_{i}^{t}Me_{j}=0$ ，则 M = 0 。

现在我们描述 2 × 2 正交矩阵。

• 对于 $\mathbb{R}^{n}$ 上的一个线性算子T ，若其分别具有以 1 和 -1 为特征值的特征向量 $v_{1}$ 和 $v_{2}$ ，则称其为反射算子(reflection)。

因为其固定 $v_{1}$ 并改变正交向量 $v_{2}$ 的符号，这样的一个算子关于由 $v_{1}$ 张成的一维子空间的平面反射。关于 $e_{1}$ 轴反射的算子矩阵为

(5.1.16) $S_{0}=\begin{bmatrix} 1&0\\ 0&-1 \end{bmatrix}$ 。

定理 5.1.17

(a) 具有行列式1 的 2 × 2 正交矩阵是矩阵

(5.1.18) $R=\begin{bmatrix} c&-s\\ s&c \end{bmatrix}$ ，

其中，c = cos(θ) 和 s = sin(θ) (对于某个角度 θ )。矩阵 R 表示平面 $\mathbb{R}^{2}$ 关于原点并绕过角度 θ 的逆时钟旋转。

(b) 具有行列式 -1 的 2 × 2 正交矩阵是矩阵

(5.1.19) $S=\begin{bmatrix} c&-s\\ s&-c \end{bmatrix}=RS_{0}$ ，

其中，c 和 s 如上。矩阵 S 关于 $\mathbb{R}^{2}$ 的与 $e_{1}$ 轴呈角度 $\frac{1}{2}\theta$ 的一维子空间反射平面。

证明：

不妨设

$A=\begin{bmatrix} c&*\\s&* \end{bmatrix}$

为一个正交矩阵。则其列是单位向量 (5.1.10),因此，点 $(c,s)^{t}$ 位于单位圆内，且 c = cos(θ) 和 s = sin(θ) (对于某个角度 θ )。我们检查积 $P = R^{t}A$ ，其中，R 是矩阵 (5.1.18):

(5.1.20) $P=R^{t}A=\begin{bmatrix} 1&*\\0&* \end{bmatrix}$ 。

由于 $R^{t}$ 和 A 是正交的，因此 P 也是正交的。引理 5.1.10 告知我们，第二列是一个与第一列正交的单位向量。因此

(5.1.21) $P=\begin{bmatrix} 1&0\\0&{\pm}1 \end{bmatrix}$ 。

回到问题，A = RP ，因此，若 det(A) = 1 ，则 A = R ，而若 det(A) = -1 ，则 $A = S = RS_{0}$ 。

我们已经看到，R表示旋转 (4.2.2) ，但我们仍然必须验证由矩阵 S 定义的算子。S的特征多项式是 $t^{2}-1$ ，因此，其特征值是 1 和 -1 。令 $X_{1}$ 和 $X_{2}$ 为具有这些特征值单位长度的特征向量。因为 S 是正交的，

$(X_{1}{\cdot}X_{2}) = ( SX_{1}{\cdot}SX_{2}) = (X_{1}{\cdot}-X_{2}) = -(X_{1}{\cdot}X_{2})$ 。

从而可推导出 $(X_{1}{\cdot}X_{2}) =0$ 。由于特征向量是正交的，因此 $X_{1}$ 的张成(span)将是反射线。为了确定这条线，我们将一个单位向量 X 写成 $(c^{'},s^{'})^{t}$ ( $c^{'}=\cos{\alpha}$ , $s^{'}=\sin{\alpha}$ )。则

$SX=\begin{bmatrix} cc^{'}+ss^{'} \\ sc^{'}-cs^{'} \end{bmatrix}=\begin{bmatrix} \cos(\theta-\alpha) \\ \sin(\theta-\alpha) \end{bmatrix}$ 。

当 $\alpha=\frac{1}{2}\theta$ 时，X 是一个特征值为 1 的特征向量，为一个固定的向量。

下面我们描述 3 × 3 旋转矩阵。

定义 5.1.22 $\mathbb{R}^{3}$ 关于原点的一个旋转是一个线性算子 ρ ，其具有以下属质：

• ρ 固定一个单位向量 u ，称为 ρ 的一个极点，以及

• ρ 将二维子空间 W 旋转至与u 正交。

旋转轴是由 u 张成的直线 𝓁 。同样，我们称恒等算子为一个旋转，尽管其轴是不确定的(indeterminate)。

若一个 3 × 3 矩阵 R 是 $\mathbb{R}^{3}$ 的一个旋转，则称 R 为一个旋转矩阵。

(5.1.23)

------------------------------------------------ $\mathbb{R}^{3}$ 的一个旋转-------------------------------------------------

旋转角的符号取决于子空间 W 如何定向。我们根据箭头 u 的头来定向 W 。图中展示的角度 θ 是正的。(这称为“右手法则”。)

当 u 是向量 $e_{1}$ 时，集合 $(e_{2},e_{3})$ 将是 W 的一个基，则 ρ 的矩阵形式为

(5.1.24)

$M=\begin{bmatrix} 1&0&0 \\ 0&c&-s \\ 0&s&c \end{bmatrix}$ ,

其中，右下 2 × 2 子式是旋转矩阵(5.1.18)。

• 非恒等旋转用 (u , θ) 对描述，称为一个自旋(spin),其由一个极点 u 和一个非零旋转角 θ 组成。

具有自旋 (u , θ) 的旋转可以记为 $\rho_{(u,\theta)}$ 。每一个不同于恒等旋转的旋转 ρ 都有两个极点，即旋转轴 𝓁 与 $\mathbb{R}^{3}$ 中单位球的交集。这些是 ρ 的具有特征值 1 的单位长特征向量。一个极点 u 的选择就定义了 𝓁 上的一个方向，且变更方向会引起符号按旋转角变化。若 (u , θ) 是 ρ 的一个自旋，则 ( -u , -θ ) 也是ρ 的一个自旋。因此，每一个旋转都有两个自旋，且 $\rho_{(u,\theta)}=\rho_{(-u,-\theta)}$ 。

定理 5.1.25 (Euler 定理) 一个 3 × 3 旋转矩阵是行列式为 1 的 3 × 3 正交矩阵，其是特殊正交群 $\mathit{SO}_{3}$ 之元素。

Euler 定理有一个显著的推论，基推导基于 $\mathit{SO}_{3}$ 是一个正交群的事实。但不管是在代数上还是几何上，这都不明显。

推论 5.1.26 关于任意两个轴的旋转的合成是关于某个其他轴的旋转。

因为其元素表示旋转,因此群 $\mathit{SO}_{2}$ 和 $\mathit{SO}_{3}$ 分别称为二维和三维旋转群。当维数大于 3 时，情况就变得更加复杂。

4 × 4 矩阵

(5.1.27) $\begin{bmatrix} \cos{\alpha}&-\cos{\alpha}&&\\ \sin{\alpha}&\cos{\alpha}&&\\ &&\cos{\beta}&-\sin{\beta} \\ &&\sin{\beta}&\cos{\beta} \end{bmatrix}$

是 $\mathit{SO}_{4}$ 的一个元素，通过左乘此矩阵就将由 $(e_{1},e_{2})$ 张成的二维子空间旋转角度 α，并将由 $(e_{3},e_{4})$ 张成的二维子空间旋转角度 β 。

在证明 Euler 定理之前，我们另注意两个结论：

推论 5.1.28 令 M 为 $\mathit{SO}_{3}$ 中表示具有自旋 (u , α) 的旋转 $\rho_{(u,\alpha)}$ 之矩阵。则

(a) M 的迹是 $1+2\cos{\alpha}$ 。

(b) 令 B 为 $\mathit{SO}_{3}$ 的另一个元素，并令 $u^{'}=Bu$ 。则共轭 $M^{'} = BMB^{t}$ 表示具有自旋 $(u^{'},\alpha)$ 的旋转 $\rho_{(u^{'},\alpha)}$ 。

证明：

(a) 我们选择 $\mathbb{R}^{3}$ 的一个正交基，使得 $v_{1}=u$ 。则 ρ 关于这个基的新的矩阵具有 (5.1.24) 的形式，即迹将为 $1+2\cos{\alpha}$ 。由于迹与基的选择无关，因此 M 的迹也是 $1+2\cos{\alpha}$ 。

(b) 由于 $\mathit{SO}_{3}$ 是一个群， $M^{'}$ 是 $\mathit{SO}_{3}$ 的一个元素。则根据 Euler 定理， $M^{'}$ 是一个旋转矩阵。此外， $u^{'}$ 是这个旋转的一个极点：由于 B 是正交的，因此， $u^{'}=Bu$ 长度为1(译注：正交矩阵的行向量和列向量均为单位向量，行向量或列向量长度均为1) ，且

$M^{'} u^{'} = BMB^{-1} u^{'} = BMu = Bu = u^{'}$ 。
令 $\alpha^{'}$ 为 $M^{'}$ 关于极点 $u^{'}$ 的旋转角。则 M 的迹与其共轭 $M^{'}$ 是相等的。因此 $\cos{\alpha}=\cos{\alpha^{'}}$ 。这意味着 $\alpha^{'}={\pm}\alpha$ 。根据 Euler 定理，矩阵 B 也表示一个旋转，比如，关于某个极点旋转角度 β 。由于 B 和 $M^{'}$ 连续地依赖 β ，只会出现 $\alpha^{'}$ 的两个值 ${\pm}\alpha$ 之一的情况。当 β = 0 时，B = I , $M^{'} = M$ , 且 $\alpha^{'}=\alpha$ 。从而对于所有 β ，都有 $\alpha^{'}=\alpha$ 。

引理 5.1.29 一个行列式为 1 的 3 × 3 正交矩阵 M 有一个等于 1 的特征值。

证明：

为了证明 1 是该矩阵的一个特征值，我们证明行列式 M – I 的行列式为零。若 B 是一个 n × n 矩阵，则 $\det(-B) = (-1)^{n} \det(B)$ 。我处理的是 3 × 3 矩阵，因此 $\det(M - I ) = - \det(I - M )$ 。此外， $(M - I)^{t} = \det(M - I )$ 且 $\det(M ) = 1$ 。

则

$\det(M - I ) = \det(M - I)^{t} = \det(M(M^{t} - I )) = \det(I - M )$ 。

$\det(M - I ) = \det(I - M )$ 的这种关系表明 $\det(M - I ) = 0$ 。

Euler定理之证明：

假设 M 表示具有自旋 (u , α ) 的旋转 ρ 。我们通过向 u 追加一个其正交空间W 的一个正交基的方式构成一个正交基B 。ρ 关于这个基的矩阵 $M^{'}$ 将具有 (5.1.24) 的形式，其行列式为1 且是正交的。此外，有 $M=PM^{'}P^{-1}$ ，其中，矩阵 P 等于 [B] (3.5.13) 。由于其列是正交的，因此 [B] 是正交的。从而 M 也是正交的，且其行列式等于 1 。

反之，设M 是一个行列式为1的正交矩阵，T 表示与M 的左乘。设u 是一个特征值为1 的单位长度特征向量，W 是与 u 正交的二维空间。由于T 是一个固定u 的正交算子，它将W 映射到自身。因此W是一个T 不变子空间，我们可以将算子限制在W上。

由于 T 是正交的，它保持长度不变(5.1.13)，因此它对 W 的限制也是正交的。现在 W 的维度是 2，我们知道 2 维上的正交算子：它们是旋转和反射(5.1.17)。反射是行列式为 -1 的算子。如果算子 T 作为反射作用于 W，并固定正交向量 u，则其行列式也将为 -1。由于情况并非如此，因此 $T|_{W}$ 是旋转。这验证了定义 5.1.22 的第二个条件，并表明 T 是旋转。

5.2 使用连续性(Using continuity)

关于复矩阵的各种事实可以利用我们在此解释的基于连续性的推理通过对角化推导出来。

对于一个 n × n 矩阵序列 $A_{k}$ 和一个 n × n 矩阵 A ，若对于每一个 i 和 j ， $A_{k}$ 的第 i ，j 项都收敛于矩阵 A 的i ，j 项，则称矩阵序列 $A_{k}$ 收敛于矩阵 A 。类似地，对于一个复系数 n 阶多项式序列 $p_{k}(t)$ (k = 1 ,2 ,…)和一个 n 阶多项式 p(t ) ，若对于每一个 j ， $p_{k}$ 中的系数 $t^{j}$ 都收敛于 p 的相应系数，则称多项式序列 $p_{k}$ 收敛于 p 。我们可以通过记法表明一个复序列，复矩阵，复多项式 $S_{k}$ 收敛于某个 S ，即记为 $S_{k} \rightarrow S$ 。

命题 5.2.1 (根的连续性) 令 $p_{k}(t)$ 为一个阶数 ≤ n 的首一(monic,首项系数为1)多项式序列，并令 p ( t ) 为另一个n阶首一多项式。令 $\alpha_{k,1} ,... , \alpha_{k,n}$ 和 $\alpha_{1} ,... , \alpha_{n}$ 分别表示这两个多项式的根。则

(a) 若对于 ν = 1 ，… ，n ，有 $\alpha_{k,v} \rightarrow \alpha_{v}$ ，则 $p_{k} \rightarrow p$ 。

(b) 反之，若 $p_{k} \rightarrow p$ ， $p_{k}$ 的根 $\alpha_{k,v}$ 可以按这样一种方式编号，即对于 ν = 1 ，… ，n ，有 $\alpha_{k,v} \rightarrow \alpha_{v}$ 。

在 (b) 部分，每一个多项式 $p_{k}$ 的根必需单独编号。

证明：

我们注意到， $p_{k}(t) = (t - \alpha_{k,1})...(t - \alpha_{k,n})$ 和 $p(t) = (t - {\alpha}_{1})...(t - {\alpha}_{n})$ 。而推导 (b) 所基于的事实是，p(t) 的系数是根的连续函数(多项式函数)，但 (b) 作为多项式的函数不明显。

第1步：

令 $\alpha_{k,v}$ 为 $p_{k}$ 的最接近 $\alpha_{1}$ 的根，即其使得 $|\alpha_{k,v}-\alpha_{1}|$ 最小。我们重写编号 $p_{k}$ 的根，使得这个根为 $\alpha_{k,1}$ 。则

$|\alpha_{1}-\alpha_{k,1} |^{n} \leq |(\alpha_{1 }- \alpha_{k,1})... (\alpha_{1} - \alpha_{k,n})| = |p_{k}(\alpha_{1})|$ 。

右边收敛于 $| p(\alpha_{1})| = 0$ 。因此，右边必须也收敛于此。这就证明了 $\alpha_{k,1} \rightarrow \alpha_{1}$ 。

第2步：

我们将多项式分解，记 $p_{k}(t) = (t - \alpha_{k,1}) q_{k}(t)$ 和 $p(t) = (t - \alpha_{1})q(t)$ 。则 $q_{k}$ 和 q 是首一多项式，它们的根分别是 $\alpha_{k,2} ,... , \alpha_{k,n}$ 和 $\alpha_{2} ,... ,\alpha_{n}$ 。若我们能证明 $q_{k} \rightarrow q$ ，则基于 n 执行归纳，我们将能够排列 $q_{k}$ 的根，使其收敛于 q 的根，我们按这种方法进行。

为了证明 $q_{k} \rightarrow q$ ，我们进行显式分解。为了简化记法，我们略去从 1 到 $\alpha_{1}$ 的下标。比如， $p(t) = t^{n} + a_{n-1} t^{n-1} + ... + a_{1}t + a_{0}$ , $q(t) = t^{n-1} + b_{n-2} t^{n-2} + ... + b_{1}t + b_{0}$ ，而 $p_{k}$ 和 $q_{k}$ 是类似的。方程 p(t) = (1 - α)q(t) 意味着：

$\begin{array}{lrc} b_{n-2} = \alpha + a_{n-1} ,\\ b_{n-3} = \alpha^{2} + \alpha + a_{n-2} ,\\ \quad \vdots \\ b_{0} = \alpha^{n-1} + \alpha^{n-2} a_{n-1} + ...+ {\alpha}a_{2} + a_{1} , \end{array}$

由于 $\alpha_{k,1} \rightarrow \alpha_{1}$ 且 $\alpha_{k,i} \rightarrow \alpha_{i}$ ，因此 $b_{k,i} \rightarrow b_{i}$ 成立。

命题 5.2.2 令 A 为一个 n × n 复矩阵。则

(a) 存在一个收敛于 A 的矩阵序列 $A_{k}$ ，使得对于所有的 k ， $A_{k}$ 的特征多项式 $p_{k}(t)$ 具有不同的根。

(b) 若一个矩阵序列 $A_{k}$ 收敛于 A ，则其特征多项式 $p_{k}(t)$ 收敛于A 的特征多项式 p(t) 。

(c) 令 $\lambda_{i}$ 为特征多项式的 p(t) 根。则若 $A_{k} \rightarrow A$ ， $p_{k}$ 的根 $\lambda_{k,i}$ 可以标号以使得对于每一个 i , 有 $\lambda_{k,i} \rightarrow \lambda_{i}$ 。

证明：

根据命题 4.6.1 ，存在一个可逆矩阵 P ，使得 $A^{'} = P^{-1} A P$ 呈上三角阵，其特征值是此上三角阵的对角线项。令 $A_{k}^{'}$ 为一个收敛于 A 的矩阵序列，其非对角线项(off-diagonal) 与 $A^{'}$ 的非对角线项相同，而其对角线项不同。则 $A_{k}^{'}$ 是上三角阵，且其特征多项式具有不同的根。令 $A_{k}= PA_{k}^{'} P^{-1}$ 。由于矩阵乘是连续的，因此 $A_{k }\rightarrow A$ 从而 $A_{k}$ 的特征多项式与 $A_{k}^{'}$ 的相同，因此其同样具有不同的根。

(b) 部分由 (a) 推出，因为特征多项式的系数连续依赖于矩阵项，因此 (c) 由命题 5.2.1 得出。

我们可以使用连续性来证明著名的 Cayley-Hamilton 定理。我们按其矩阵形式来表述这个定量。

定理 5.2.3(Cayley-Hamilton 定理) 令 $p(t) = t^{n} + c_{n-1} t^{n-1} + ... + c_{1}t + c_{0}$ 为 n × n 复矩阵 A 的特征多项式。则 $p(A) = A^{n} + c_{n-1} A^{n-1} + ... + c_{1} A + c_{0} I$ 是零矩阵。

例如，2 × 2 矩阵 A 的特征多项式是 $t^{2} - (a + d )t + (ad - bc)$ (其中，a, b, c, d 如常 )(4.5.12)。根据定理，可断言

(5.2.4) $\begin{bmatrix} a&b\\ c&d \end{bmatrix}^{2}-(a+d)\begin{bmatrix} a&b\\ c&d \end{bmatrix}+(ad-bc)\begin{bmatrix} 1&0\\ 0&1 \end{bmatrix}=\begin{bmatrix} 0&0\\ 0&0 \end{bmatrix}$ 。

这不难验证。

Cayley-Hamilton 定理之证明：

第1步：A 是对角矩阵的情况。

令对角项为 $\lambda_{1},..., \lambda_{n}$ 。则其特征多项式是

$p(t) = (t - {\lambda}_{1}) ...(t - {\lambda}_{n})$ 。

此处的 p(A) 也是一个对角矩阵，其对角项是 $p(\lambda_{i})$ ，由于 $\lambda_{i}$ 是 p 的根，则 $p(\lambda_{i})=0$ 且 p(A) = 0 。

第2步：A 的特征值不同的情况。

在这种情况下，A 是可对角化的矩阵；比如， $A^{'} = P^{-1} A P$ 是对角阵。则 $A^{'}$ 的特征多项式与 A 的特征多项式 p ( t ) 相同，此外

$p(A) = P p(A^{'}) P^{-1}$ (见 (4.6.14) ) 。

根据第 1 步， $p(A^{'}) = 0$ ，从而 p(A) = 0 。

第3步：一般情况。

我们应用命题 5.2.2 。我们令 $A_{k}$ 为具有不同特征值的收敛于 A 的矩阵序列。令 $p_{k}$ 为 $A_{k}$ 的特征多项式。由于 $p_{k}$ 收敛于 A 的特征多项式 p ，即 $p_{k}(A_{k}) \rightarrow p(A)$ 。

根据第二步，对于所有的 k 有 $p_{k}(A_{k})=0$ 。从而 p(A) = 0 。

5.3 微分方程组(Systems of differential equations)

我们知道，在微积分中，微分方程

(5.3.1) $\displaystyle \frac{dX}{dt}=ax$

的解是 $x(t) = ce^{at}$ ，其中，c 是一个任意实数。我们回顾一下其证明，因为我们想再次使用这个论证。首先， $ce^{at}$ 确实是这个方程的解。为了证明方程的每一个解都具有这种形式，我们令 x(t) 为一个任意解。我们利用乘积法则微分 $e^{-at}x(t)$ :

(5.3.2) $\displaystyle \frac{d}{dt}{\left (e^{-at}x(t) \right )}=(-ae^{-at})x(t)+e^{-at}(ax(t))=0$ 。

因此， $e^{-at}x(t)$ 是一个常量 c ，且 $x(t)=ce^{at}$ 。

为了将此解扩展到常系数微分方程组，我们使用以下术语。一个向量函数(vector-valued function)或矩阵函数(matrix-valued function)是一个向量或矩阵，其项(或元素)是 t 的函数：

(5.3.3) $X(t)=\begin{bmatrix} X_{1}(t) \\ \vdots \\ X_{n}(t) \end{bmatrix}$ , $A(t)=\begin{bmatrix} a_{11}(t) &\cdots&a_{1n}(t)\\ \vdots && \vdots \\ a_{m1}(t)&\cdots&a_{mn}(t) \end{bmatrix}$ 。

通过对每一个元素分别进行运算，取极限和微分的微积分运算扩展到向量函数和矩阵函数。向量函数或矩阵函数的导数是通过对每一个元素进行微分得到的函数：

(5.3.4) $\displaystyle \frac{dX(t)}{dt}=\begin{bmatrix} X_{1}^{'}(t) \\ \vdots \\ X_{n}^{'}(t) \end{bmatrix}$ , $\displaystyle \frac{dA}{dt}=A(t)=\begin{bmatrix} a_{11}^{'}(t) &\cdots&a_{1n}^{'}(t)\\ \vdots && \vdots \\ a_{m1}^{'}(t)&\cdots&a_{mn}^{'}(t) \end{bmatrix}$ ,

其中， $x_{i}^{'}(t)$ 是 $x_{i}(t)$ 的导数，如此，等等。因此，如果每一个函数 $x_{i}(t)$ 可微，则微分 $\frac{dX}{dt}$ 有定义。导数也可以按矩阵符号表示：

(5.3.5) $\displaystyle \frac{dX(t)}{dt}=\lim_{h \rightarrow 0}{\frac{X(t+h)-X(t)}{h}}$ 。

这里 X(t + h) - X(t ) 由向量加法计算，分母中的 h 表示与 $h^{-1}$ 的标量乘。极限是通过分别求每一个元素的极限得到的。因此，(5.3.5) 的元素是导数 $x_{i}^{'}(t)$ 。类似的命题也适用于矩阵函数。

微分的许多基本性质可以推广到矩阵函数。例如，乘积法则的证明可以作为练习：

引理 5.3.6 乘积法则(Product Rule)。

(a) 令 A(t) 和 B(t) 为 t 的可微矩阵函数，且具有使得其积有定义的合适的大小。则矩阵乘积 A(t )B(t ) 是可微的，其导数是

$\displaystyle \frac{d(AB)}{dt} =B\frac{d(A)}{dt} +A\frac{d(B)}{dt}$ 。

(b) 令 $A_{1} ,... , A_{k}$ 为 t 的可微矩阵函数序列，且具有使得其积有定义的合适的大小。则矩阵乘积 $A_{1} ... A_{k}$ 是可微的，其导数是

$\displaystyle \frac{d}{dt}{(A_{1}...A_{k})}=\sum_{i=1}^{k}A_{1}...A_{i-1}(\frac{dA_{i}}{dt})A_{i+1}...A_{k}$ 。

一个齐性线性一阶常系数方程组是一个矩阵方程，其形式为

(5.3.7) $\displaystyle \frac{dX}{dt}=AX$ ,

其中，A 是一个常量 n × n 矩阵，X 是一个 n 维向量函数。写出这样一个方程组，我们就得到了一个 n 维微分方程组

(5.3.8)

$\displaystyle \frac{dx_{1}}{dt}=a_{11}x_{1}(t)+...+a_{1n}x_{n}(t)$

............................................................

$\displaystyle \frac{dx_{n}}{dt}=a_{n1}x_{1}(t)+...+a_{nn}x_{n}(t)$ 。

$x_{i}(t)$ 是未知函数，标量 $a_{ij}$ 已知。例如，若

(5.3.9) $A=\begin{bmatrix}3&2\\1&4 \end{bmatrix}$ ，

则 (5.3.7) 就成了一个具有2个未知数的由两个方程构成的方程组

(5.3.10)

$\displaystyle \frac{dx_{1}}{dt}=3x_{1}(t)+2x_{2}(t)$

$\displaystyle \frac{dx_{2}}{dt}=x_{1}(t)+4x_{2}(t)$ 。

最简的方程组是那些矩阵 A 是具有对角元素 $\lambda_{i}$ 的对角阵的方程组。则方程组 (5.3.8) 解读为

(5.3.11) $\displaystyle \frac{dx_{i}}{dt}=\lambda_{i}x_{i}(t)(i=1,2,...,n)$ 。

在此，未知函数 $x_{i}$ 不会被方程混淆，因此我们可以分别对每一个方程求解：

(5.3.12) $x_{i }= c_{i }e^{\lambda_{i}t }$ ( 对于某个任意的常量 $c_{i}$ )

在很多情况下，我们可以利用以下观察结果来求解微分方程 (5.3.7)：若 V 是 A 的一个特征为 λ 的特征向量，即 AV = λV ，则

(5.3.13) $X = e^{{\lambda}t}V$

是 (5.3.7)的一个特解。此处 $e^{{\lambda}t}V$ 必须解释为标量变量 $e^{{\lambda}t}$ 与常向量 V 之积。固定 V ，微分作用于标量函数，而固定标量 $e^{{\lambda}t}$ ，乘以 A 则作用于向量V 。因此 $\frac{d}{dt} e^{{\lambda}t}V = {\lambda}e^{{\lambda}t}V$ , 另外 $Ae^{{\lambda}t}V = {\lambda}e^{{\lambda}t}V$ 。例如，

$\begin{bmatrix} 1 \\ 1 \end{bmatrix}$ 和 $\begin{bmatrix} 2 \\ -1 \end{bmatrix}$

是矩阵 (5.3.9) 的特征向量，其特征值分别是 5 和 2 ，且

(5.3.14) $\begin{bmatrix} e^{5t} \\ e^{5t} \end{bmatrix}$ 和 $\begin{bmatrix} 2e^{2t} \\ -e^{2t} \end{bmatrix}$

是方程组 (5.3.10)的解。

由此观察，只要矩阵 A 具有不同的实特征值，我们就能求解 (5.3.7)。在这种情况下，每一个解都将是 (5.3.13) 特殊解的线性组合。为了解决这个问题，对角化是一种便捷的方法。

命题 5.3.15 令 A 为一个 n × n 矩阵，并令 P 为一个可逆矩阵，并使得 $\Lambda=P^{-1}AP$ 是对角阵，且对角元素为 $\lambda_{1} ,..., \lambda_{n}$ 。这个方程组 $\frac{dX}{dt}=AX$ 的通解是 $X = P\widetilde{X}$ ，其中 $\widetilde{X}=(c_{1}e^{\lambda_{1}t},...,c_{n}e^{\lambda_{n}t})^{t}$ 是方程 $\frac{d\widetilde{X}}{dt}={\Lambda}\widetilde{X}$ 的解。系数 $c_{i}$ 是任意的。它们通常由赋预的初始条件( X 在某个特解 $t_{0}$ 处的值)确定。

证明：

我们用 P 乘以方程 $\frac{d\widetilde{X}}{dt}={\Lambda}\widetilde{X}$ ： $P\frac{d\widetilde{X}}{dt}=P{\Lambda}\widetilde{X}=AP\widetilde{X}$ 。但由于 P 是常量，因此 $P\frac{d\widetilde{X}}{dt}=\frac{d(P\widetilde{X})}{dt}=\frac{dX}{dt}$ 。从而 $\frac{dX}{dt}=AX$ 。这个推理可以反过来，因此，当且仅当 X 用 A 解方程时， $\widetilde{X}$ 用 Λ 解方程。对角化矩阵 (5.3.10) 的矩阵是在 (4.6.8) 之前计算的：

(5.3.16) $A=\begin{bmatrix}3&2\\1&4 \end{bmatrix}$ , $P=\begin{bmatrix}1&2\\1&-1 \end{bmatrix}$ , 以及 $\Lambda=\begin{bmatrix}5&\\&2 \end{bmatrix}$ 。

因此，

(5.3.17) $X=\begin{bmatrix} x_{1} \\ x_{2} \end{bmatrix}=P\widetilde{X}=\begin{bmatrix}1&2\\1&-1 \end{bmatrix}\begin{bmatrix} c_{1}e^{5t} \\ c_{2}e^{5t} \end{bmatrix}= \begin{bmatrix} c_{1}e^{5t}+2c_{2}e^{2t} \\ c_{1}e^{5t}-c_{2}e^{2t} \end{bmatrix}$ 。

换言之，方程的每一个解都是两个基本解的线性组合。

我们现在考虑系数矩阵 A 具有不同特征值的情况，但它们并不完全是实数。为了复制上面使用的方法，我们首先考虑形如 (5.3.1) 的微分方程，其中a 是一个复数。恰当的解释是，这样一个微分方程的仍然具有形如 $ce^{at}$ 的解。唯一需要记住的是， $e^{at}$ 现在将成为实变量t的复函数。

复函数导数的定义与实函数的定义相同，只要极限 (5.3.5)存在。没有新的特征。我们可以把任何这样的函数 x( t ) 写成它的实部和虚部的形式，这样，它们就成为实函数了，比如，

(5.3.18) $x(t) = p(t) + iq(t)$ 。

则当且仅当 p 和 q 可微时，x 可微，且它们可微，则 x 的导数是 $p^{'} + iq^{'}$

。这可直接根据定义推导。微分的常规法则(例如乘积规则)对复函数仍然成立。这些规则可以通过对p和 q 应用相应的实函数定理，或者复制相应的实函数的定理来证明。

一个复数 r + si 的指数定义为

(5.3.19) $\large \displaystyle {e^{a} = e^{r + si} = e^{r(\cos(s) + i\sin(s))}}$ 。

这个公式的微分表明 $\large de^{at}/dt=ae^{at}$ 。因此， $\large ce^{at}$ 是微分方程 (5.3.1) 的解，本节开头给出的证明表明这个些是唯一的解。

将单个方程的情况扩展到复系数的情况后，当 A 是一个具有不同特征值的复矩阵时，我们可以利用对角化来求解方程组 (5.3.7)。

例如，令 $A=\begin{bmatrix}1&1\\-1&1 \end{bmatrix}$ 。向量 $v_{1}=\begin{bmatrix} 1 \\ i \end{bmatrix}$ 和 $v_{2}=\begin{bmatrix} i \\ 1 \end{bmatrix}$ 是其特征向量，其特征值分别为 1 + i 和 1 - i 。令 B 表示基 $(v_{1},v_{2})$ 。则 A 通过矩阵 P = [B] 对角化：

(5.3.20)

$\displaystyle P^{-1} AP =\frac{1}{2}\begin{bmatrix}1&-i\\-i&1 \end{bmatrix}\begin{bmatrix}1&1\\-1&1 \end{bmatrix}\begin{bmatrix}1&i\\i&1 \end{bmatrix}=\begin{bmatrix}1+i&\\&1-i \end{bmatrix}=\Lambda$ 。

则 $\widetilde{X}=\begin{bmatrix} {\widetilde{x}_{1}} \\ \widetilde{x}_{2} \end{bmatrix}= \begin{bmatrix} c_{1}e^{(1+i)t} \\ c_{2}e^{(1-i)t} \end{bmatrix}$ 。方程 (5.3.7) 的解是

(5.3.21)

$\begin{bmatrix} {{x}_{1}} \\ {x}_{2} \end{bmatrix}=P\widetilde{X}= \begin{bmatrix} c_{1}e^{(1+i)t}+ic_{2}e^{(1-i)t} \\ c_{1}e^{(1-i)t} +ic_{1}e^{(1+i)t} \end{bmatrix}$ ，

其中， $c_{1}$ , $c_{2}$ 是任意复数。因此，每一个解都是这两个基本解

(5.3.22) $\begin{bmatrix} e^{(1+i)t} \\ ie^{(1-i)t} \end{bmatrix}$ 和 $\begin{bmatrix} ie^{(1-i)t} \\ e^{(1-i)t} \end{bmatrix}$

的一个线性组合。然而，这些解并不令人满意，因为我们一开始就得到了一个实系数微分方程组，而得到的答案是复数。当方程为实数时，我们需要的是实数解。我们注意到以下引理：

引理 5.3.23 令 A 为一个实 n × n 矩阵，且令 X( t ) 为微分方程 $\frac{dX}{dt}=AX$ 的一个复解。的实部和虚部为同一方程的解。

现在，原方程 (5.3.7) 的每一个解，无论是实解还是复解，对于某些复数 $c_{i}$ ，都具有形式 (5.3.21)。因此，实解包含于我们已求得的解之中。为了明确地写出它们，我们可以取复解的实部和虚部。

基本解 (5.3.22) 实部和虚部使用 (5.3.19)确定。它们是

(5.3.24) $\begin{bmatrix} e^{t}\cos{t} \\-e^{t}\sin{t} \end{bmatrix}$ 和 $\begin{bmatrix} e^{t}\sin{t} \\e^{t}\cos{t} \end{bmatrix}$ 。

每一个实解都是这些特解的一个实数线性组合。

5.4 矩阵指数(The matrix exponential)(矩阵作为指数)

一阶线性常系数微分方程组可以用矩阵指数来正式求解。

一个实或复 n × n 矩阵A的指数也是一个一个矩阵，可通过在 $e^{x}$ 的Taylor级数中用 A代替x 并用 I 替换1 而求得。Taylor级数为

(5.4.1) $\displaystyle e^{x} = 1 + \frac{x}{1!} + \frac{x^{2}}{2!} + \frac{x^{3}}{3!} + ...$ 。

因此，根据定义

(5.4.2) $\displaystyle e^{A} = I + \frac{A}{1!} + \frac{A^{2}}{2!} + \frac{A^{3}}{3!} + ...$ 。

我们主要的兴趣点在于标量变量 t 的矩阵函数 $e^{tA}$ ，因此我们在上式中将 A 替换为 tA:

(5.4.3) $\displaystyle e^{tA} = I + \frac{tA}{1!} + \frac{t^{2}A^{2}}{2!} + \frac{t^{3}A^{3}}{3!} + ...$ 。

定理 5.4.4

(a) 该级数 (5.4.2) 在复矩阵的有界集上绝对且一致收敛。

(b) $e^{tA}$ 是 t 的一个可微函数，其导数是矩阵乘法 $Ae^{tA}$ 。

(c) 设 A 和 B 为可交换的复 n × n 矩阵: AB = BA 。则 $e^{A+B}=e^{A}e^{B}$ 。

为了不打断讨论，我们将该定理的证明移到了本节的末尾。

A 和 B 为可交换的假设对于将基本性质 $e^{x+y}=e^{x}e^{y}$ 推广到矩阵至关重要。因此，(c) 非常重要。

推论 5.4.5 对于任意 n × n 复矩阵，指数 $e^{A}$ 是可逆的，且其逆是 $e^{-A}$ 。

证明：

因为 A 和 -A 可交换，因此 $e^{A} e^{-A} = e^{A-A} = e^{0} = I$ 。

由于矩阵乘法相对复杂，通常不容易写下矩阵 $e^{A}$ 的元素。除非 A 是对角矩阵，否则无法通过对 A 的元素指数化来获得它们。若 A 是对角阵，且对角线上的元素为 ${\lambda}_{1} ,...,{\lambda}_{n}$ ，则通过级数检查表明 $e^{A}$ 也是呈对角化的，且其对角线元素为 $e^{{\lambda}_{i}}$ 。

对于一个三角 2 × 2 矩阵，这个指数也相当容易计算。例如，若

$A=\begin{bmatrix}1&1\\&2\end{bmatrix}$ ,

则

(5.4.6) $\displaystyle e^{A}=\begin{bmatrix}1&\\&1\end{bmatrix}+ \frac{1}{1!}\begin{bmatrix}1&1\\&2\end{bmatrix}+\frac{1}{2!}\begin{bmatrix}1&3\\&4\end{bmatrix}+...+\begin{bmatrix}1&*\\&e^{2}\end{bmatrix}$ 。

直接从级数计算缺失项 * 是一个非常好的习题。

只要我们知道某一个矩阵P ，其使得 $\Lambda = P^{-1} AP$ 呈对角化，则我们就可以确定 $e^{A}$ 的指数。使用法则 $P^{-1} A^kP = (P^{-1} AP)^{k}$ (4.6.12) 以及矩阵乘法的分配律，得到

(5.4.7) $\displaystyle P^{-1} e^{A}P = (P^{-1}IP ) + \frac{P^{-1}AP}{1!} + \frac{({P^{-1}AP})^{2}}{2!} + ...+e^{P^{-1}AP}=e^{\Lambda}$ 。

假设 Λ 呈对角化，且其对角化元素为 $\lambda_{i}$ 。则 $e^{\Lambda}$ 也呈对角化，且其对角化元素为 $e^{\lambda_{i}}$ 。在这种情况下，我们可以显式地计算 $e^{A}$ ：

(5.4.8) $e^{A} = Pe^{\Lambda} P^{-1}$ 。

例如，若 $A=\begin{bmatrix}1&1\\&2\end{bmatrix}$ 而 $P=\begin{bmatrix}1&1\\&1\end{bmatrix}$ ，则 $P^{-1} AP=\Lambda=\begin{bmatrix}1&\\&2\end{bmatrix}$ 。因此

$e^{A} = Pe^{\Lambda}P^{-1}=\begin{bmatrix}1&1\\&1\end{bmatrix}\begin{bmatrix}e&\\&e^{2}\end{bmatrix}\begin{bmatrix}1&-1\\&1\end{bmatrix}=\begin{bmatrix}e&e^{2}-e\\&e^{2}\end{bmatrix}$ 。

下一个定理将矩阵指数与微分方程联系起来：

定理 5.4.9 令 A 为一个实或复 n × n 矩阵。则矩阵 $e^{tA}$ 的列构成微分方程 $\frac{dX}{dt}=AX$ 的解空间的一个基。

证明：

根据定理 (5.4.4)(b)， $e^{tA}$ 的列是微分方程的解。为了证明微分方程的每一个解都是列的一个线性组合，我们复制 5.3 节开头已经的这个证明。令 X(t ) 为一个任意解。我们用乘法法则 (5.3.6) 微分 $e^{-tA}X(t)$ ：

(5.4.10) $\displaystyle \frac{d}{dt}{\left (e^{-tA}X(t)\right )}=(-Ae^{-tA})X(t)+e^{-tA}(AX(t))$ 。

庆幸的是，A 和 $e^{-tA}$ 可交换。这一特性可直接根据指数的定义推导。因此函数的导数是零。从而 $e^{-tA}X(t)$ 是一个常量列向量，不妨设其为 $C = (c_{1},...,c_{n})^{t}$ ，则 $X(t) = e^{tA} C$ 。这样就将 X (t ) 表示成了 $e^{tA}$ 的列向量的线性组合，且系数为 $c_{i}$ 。且这种表示是唯一的，因为 $e^{tA}$ 是一个可逆矩阵。

虽然矩阵指数总是能解微分方程 (5.3.7)，但它可能不容易应用于具体情况，因为指数的计算可能很困难。但如果 A 可对角化，则可以像 (5.4.8) 中那样计算指数。我们可以用这种求 $e^{tA}$ 的方法来解方程 (5.3.7)。当然，我们会得到和之前相同的解。因此，如果 A、P 和 A 与 (5.3.16) 中一样，则

$\displaystyle e^{tA }= Pe^{t}{\Lambda} P^{-1}\\\\\\ =\begin{bmatrix}1&1\\&2\end{bmatrix}\begin{bmatrix}e^{5t}&1\\&e^{2t}\end{bmatrix}(-\frac{1}{3})\begin{bmatrix}-1&-2\\-1&1\end{bmatrix}\\\\ \\\\= \displaystyle \frac{1}{3}\begin{bmatrix}(e^{5t}+2e^{2t})&(2e^{5t}-2e^{2t})\\(e^{5t}-e^{2t})&(2e^{5t}+2e^{2t})\end{bmatrix}$ 。

右侧矩阵的列构成了解空间的第二个基，该基是在 (5.3.17) 中求得的。

我们也可以使用 Jordan 形来解微分方程。任意 k × k Jordan 块 $J_{\lambda}$ (4.7.5) 都可以通过计算矩阵指数来确定。我们记 $J_{\lambda} = {\lambda}I + N$ ，和 (4.7.12) 中一样，其中 N 是 k × k Jordan 块 $J_{0}$ 且 $N^{k}=0$ ，因此

$\displaystyle e^{tN} = I + \frac{tN}{1!} +... + \frac{t^{k-1}N^{k-1}}{(k-1)!}$ 。

由于 N 和 λI 可交换，

$\displaystyle e^{tJ} = e^{{\lambda}tI}e^{tN}= e^{{\lambda}t}\left (I + \frac{tN}{1!} +... + \frac{t^{k-1}N^{k-1}}{(k-1)!} \right )$ 。

因此，若 J 是 3 ×3 Jordan 块，即

$J=\begin{bmatrix}3&&\\ 1&3& \\ &1&3 \end{bmatrix}$ ,

则

$\displaystyle e^{tJ} =\begin{bmatrix}e^{3t}&&\\&e^{3t}& \\ &&e^{3t} \end{bmatrix}\begin{bmatrix}1&&\\t&1& \\ \frac{1}{2!}t^{2} &t&1 \end{bmatrix}=\begin{bmatrix}e^{3t} &&\\te^{3t} &e^{3t} & \\ \frac{1}{2!}t^{2}e^{3t} &te^{3t} &e^{3t} \end{bmatrix}$ 。

这个矩阵的列构成了微分方程 $\frac{dX}{dt}=JX$ 的解空间的一个基。

现在我们回过头来证明定理 5.4.4 。我们将用到的关于级数极限的主要事实如下，并参考了[Mattuck]和[Rudin]的文献。这些作者只考虑了实函数，但其证明也适用于复函数，因为复函数的极限和导数可以通过分别处理实部和虚部来定义。

若 r 和 s 是实数且 r < s 。记法 [ r, s ] 表示区间 r ≤ t ≤ s 。

定理 5.4.11 ([Mattuck], 定理 22.2B, [Rudin], 定理7.9) 令 $m_{k}$ 为一个正实数序列，且使得 $\sum{m_{k}}$ 收敛。若 $u^{(k)}(t)$ 是闭区间 [ r, s ] 上的一个函数，且若对于此区间中的所有 t 和所有 k ,有 $| u^{(k)}(t)| \leq m_{k}$ 。则级数 $\sum{u^{(k)}(t)}$ 在此区间上于致收敛。

定理 5.4.12 ([Mattuck], 定理 11.5B, [Rudin], 定理7.17) 令 $u^{(k)}(t)$ 为一个在区间 [r, s] 上具有连续导数物函数序列。假设级数 $\sum{u^{(k)}(t)}$ 收敛于一个函数 f (t ) ,且其导数组数 $\sum{u^{'(k)}(t)}$ 在这个区间上一致收敛于一个函数 g (t ) 。则函数 f 在此区间上可微且其导数为 g 。

定理 5.4.4 之证明。

(a): 在此，我们用 $(A)_{ij}$ 一个矩阵 A 的第 i, j 个元素。因此， $(AB)_{ij}$ 表示乘积矩阵 AB 的元素。而 $(A^{k} )_{ij}$ 表示第 k 个幂 $A^{k}$ 的元素。按照这种记法， $e^{A}$ 的第 i, j 个元素是级数和

(5.4.13) $\displaystyle (e^{A})_{ij}=(I)_{ij}+\frac{(A)_{ij}}{1!}+\frac{(A^{2})_{ij}}{2!}+\frac{(A^{3})_{ij}}{3!}+...$ 。

为了证明指数级数绝对且一致地收敛，我们需要证明幂 $A^{k}$ 的元素(项)不会增长得太快。

我们用 $||A||$ 表示矩阵 A 元素的最大绝对值，即满足以下条件的最小实数：

(5.4.14) $|(A)_{ij}| \leq ||A||$ (对于所有 i, j ) 。

其基本属性为：

引理 5.4.15 令 A 和 B 为复 n × n 矩阵。则 $||AB|| \leq \Vert A \Vert \Vert B \Vert$ ，且对于所有 k > 0 , 有，且对于所有 k > 0 , 有 $\Vert A^{k} \Vert \leq n^{k-1} \Vert A \Vert^{k}$ 。

证明：

我们估算 AB 的 i , j 元素的大小：

$\displaystyle \bigg |(AB)_{ij} \bigg |=\bigg |\sum_{\nu=1}^{n}(A)_{i\nu}(B)_{{\nu}j} \bigg | \leq \bigg |\sum_{\nu=1}^{n}(A)_{i\nu}(B)_{{\nu}j} \bigg | \leq n \Vert A \Vert \Vert B \Vert$ 。

第二个不等式是通过第一个不等式归纳得出的。

现在我们估算指数级数：令 a 为一个正实数，且使得 $n\Vert A \Vert \leq a$ 。根据引理得到

$|(A^{k})_{ij}| \leq a^{k}$ ( 为简单起见 n 取1 ) 。因此

(5.4.16)

$\begin{array}{rlc} \displaystyle |(e^{A})_{ij}|&\displaystyle \leq |(I)_{ij}| + |(A)_{ij}|+\frac{1}{2!} |(A^{2})_{ij}|+\frac{1}{3!} |(A^{3})_{ij}|+... \\ \\ &\displaystyle \leq 1+\frac{a}{1!}+\frac{a^{2}}{2!}+\frac{a^{3}}{3!}+... \end{array}$ 。

比率验证表明，最后一个级数收敛(显然收敛于 $e^{a}$ ) 。根据定理 5.4.11， $e^{A}$ 的级数对于所有 $A$ ( $n\Vert A \Vert \leq a$ ) 绝对且一致收敛于。

定理 5.4.4 之证明。

(b),(c): 我们使用一种技巧来缩短证明。即，首先微分 $e^{tA+B}$ 的级数。假设 A 和 B 是可交换的 n × n 矩阵。tA + B 的导数是 A ，且

(5.4.17) $\displaystyle e^{tA+B}=I+\frac{(tA+B)}{1!}+\frac{(tA+B)^{2}}{2!}+...$ 。

使用乘积法则 (5.3.6) 我们可以看到，对于 k > 0 , 这个级数的 k 次项的导数是

$\displaystyle \frac{d}{dt}{\left (\frac{(tA+B)^{k}}{k!} \right )}=\left (\frac{1}{k!}\sum_{i=1}^{k}(tA+B)^{i-1}A(tA+B)^{k-i} \right )$ 。

因为 AB = BA，我们可以将中间的 A 拉到左边：

(5.4.18)

$\displaystyle \frac{d}{dt}{\left (\frac{(tA+B)^{k}}{k!} \right )}=kA\frac{(tA+B)^{k-1}}{k!}=A\frac{(tA+B)^{k-1}}{(k-1)!}$ 。

这是矩阵 A 与指数级数的 (k - 1) 次项之积。因此对 (5.4.17) 逐项微分即可得出 $Ae^{tA+B}$ 的级数。

为了验证逐项微分，我们应用定理 (5.4.4) (a)。定理表明，对于已知的 A和 B ，指数级数 $e^{tA+B}$ 在任意区间 r ≤ t ≤ s 一致收敛。此外，导数级数一致收敛于 $Ae^{tA+B}$ 。

根据定理 5.4.12 ， $e^{tA+B}$ 的导数可以逐项计算，因此对于任意可交换的矩阵对 A ，B ，有

$\displaystyle \frac{d}{dt}{e^{tA+B}}=Ae^{tA+B}$ 。

取 B = 0 可证明定理 (5.4.4) (b) 。

接下来，我们复制定理 5.4.9 的证明中所使用的方法。我们微分乘积

$e^{-tA}e^{tA+B}$ ，同样，假设 A和 B 可交换。同在 (5.4.10) 一样，我们求得

$\displaystyle \frac{d}{dt}{\left (e^{-tA}e^{tA+B} \right )}=(-Ae^{-tA})(e^{tA+B})+(e^{-tA})(Ae^{tA+B})=0$ 。

因此， $e^{-tA}e^{tA+B}=C$ ，其中，C 是一个常量矩阵。令 t = 0 可证明 $e^{B}=C$ 。令 B = 0 即证明 $e^{-tA}=e^{(tA)^{-1}}$ 。则 $e^{(tA)^{-1}}e^{tA+B}=e^{B}$ 。令 t = 1 证明 $e^{A+B} = e^{A} e^{B}$ 。这样就证明了定理 (5.4.4)(c) 。

我们将在第 9 章中再次使用矩阵指数的显著性质。

I have not thought it necessary to undertake the labour ofa formal proof of the theorem in the general case.( 我认为没有必要对一般情况下的定理进行形式化证明。

----------------------------------------Arthur Cayley(注：Cayley-Hamilton以其名字命名的数学家之一,他在他的一篇论文中提出了 n × n 矩阵的该定理，然后检验了 2×2 的情况(参见 5.2.4)。他用这里引用的这句话结束了对该定理的讨论。)

内容来源：

<<Algebra>> Michael Artin, 2th