线性代数 --- 矩阵的对角化以及矩阵的n次幂

矩阵的对角化以及矩阵的n次幂

（特征向量与特征值的应用）

前言：

在上一篇文章中，我记录了学习矩阵的特征向量和特征值的学习笔记，所关注的是那些矩阵A作用于向量x后，方向不发生改变的x(仅有尺度的缩放)。
线性代数 --- 特征值与特征向量（上）-CSDN博客文章浏览阅读1.1k次，点赞9次，收藏21次。文章介绍了特征向量与特征值的基本概念，并给出了详细的说明图示和例子。至于如何求解矩阵的特征向量与特征值，我在下一篇文章中给出了说明。https://blog.csdn.net/daduzimama/article/details/136455766
此外，我也在另一篇文章中提到了一般矩阵的特征值与特征向量的求法。线性代数 --- 特征值与特征向量（下）-CSDN博客文章浏览阅读1.3k次，点赞31次，收藏19次。本文介绍了求解一般矩阵的特征向量和特征值的具体方法。https://blog.csdn.net/daduzimama/article/details/136608493

正文：

Part I 矩阵的对角化

矩阵对角化的意义：

这里，我打算通过这篇文章整理/梳理一下矩阵对角化的学习笔记。既然已经知道了如何求出矩阵的特征向量和特征值现，那么找到这些东西有什么用呢？答案就是矩阵的对角化。

(截图来自于参考文献2)

假设一个n维方阵A经过计算后得到n个线性无关的特征向量x1，x2...，xn，对应n个λ1，λ2...，λn。我们有：

$\left\{\begin{matrix} Ax_{1}=\lambda x_{1}\\ Ax_{2}=\lambda x_{2}\\ ...\\ Ax_{n}=\lambda x_{n} \end{matrix}\right.$

现在，我们把这些特征向量都放到一个矩阵中，合成一个新的矩阵X。看看矩阵A乘以矩阵X后会怎么样。首先，我们按照如下方式构建一个新矩阵X，我们称之为特征向量矩阵(Eigen-vector matrix)。因为该矩阵的每一列都是一个特征向量 $x_{i}$ ，所以用大写的X表示：

$X=\begin{bmatrix} | & | & &| \\ | & | & & | \\ x_{1} & x_{2} &... &x_{n} \\ | & | & & | \\ | & | & & | \end{bmatrix}$

令A乘以X，根据矩阵的乘法原则，矩阵A与矩阵X的乘法可以看成是把矩阵X各列看成权重的线性组合的结果(这句话不好懂，可以看看下面的图示)

得到：

$AX=A\begin{bmatrix} | & | & &| \\ | & | & & | \\ x_{1} & x_{2} &... &x_{n} \\ | & | & & | \\ | & | & & | \end{bmatrix}=\begin{bmatrix} | & | & &| \\ | & | & & | \\ Ax_{1} & Ax_{2} &... &Ax_{n} \\ | & | & & | \\ | & | & & | \end{bmatrix}$

$=\begin{bmatrix} | & | & &| \\| & | & &| \\ \lambda _{1}x_{1} & \lambda _{2}x_{2} &... &\lambda _{n}x_{n} \\ | & | & & | \\ | & | & & | \end{bmatrix}=\begin{bmatrix} | & | & &| \\ | & | & &| \\ x_{1} & x_{2} &... &x_{n} \\ | & | & & | \\ | & | & & | \end{bmatrix}\begin{bmatrix} \lambda _{1} &0 &... &0 \\0 & \lambda _{2} &... &0 \\... & ...&... & ...\\ 0 & 0&... & 0\\ 0 & 0 &... & \lambda _{n} \end{bmatrix}$

注意，之前用特征向量构造的新矩阵X，又再一次出现了。与此同时，他的旁边出现了一个新矩阵，这是一个对角矩阵，主对角线上的元素全是特征值λ。这也是一个新矩阵，称之为特征值矩阵(Eigen-value matrix)。因其主对角线上的元素都是特征值 $\lambda _{i}$ ，所以用大写的 $\Lambda$ （即，大写的λ）表示：

$\Lambda =\begin{bmatrix} \lambda _{1} &0 &... &0 \\0 & \lambda _{2} &... &0 \\... & ...&... & ...\\ 0 & 0&... & 0\\ 0 & 0 &... & \lambda _{n} \end{bmatrix}$

最终得到：

$AX=\begin{bmatrix} | & | & &| \\ | & | & &| \\ x_{1} & x_{2} &... &x_{n} \\ | & | & & | \\ | & | & & | \end{bmatrix}\begin{bmatrix} \lambda _{1} &0 &... &0 \\0 & \lambda _{2} &... &0 \\... & ...&... & ...\\ 0 & 0&... & 0\\ 0 & 0 &... & \lambda _{n} \end{bmatrix}=X\Lambda$

The Key Equation

$AX=X\Lambda$

又因为，我之前所构建的特征向量矩阵X是由n个线性无关的特征向量组成的，列与列之间线性无关。因此，矩阵X是可逆的。现在我们把等式两边同时左乘一个X的逆矩阵，即完成了矩阵A的对角化：

$\mathbf{X^{-1}AX=X^{-1}X\Lambda=\Lambda}$

（对角化公式）

反过来，如果把等式两边同时右乘X的逆矩阵，就得到了矩阵A的又一种分解公式（之前学过的分解有基于高斯消元的LU分解，基于gram-schmidt正交化的QR分解）：

$\mathbf{AXX^{-1}=X\Lambda X^{-1}\Rightarrow A=X\Lambda X^{-1}}$

（矩阵A的分解公式）

注意，这一切操作都基于一个前提：矩阵A有n个线性无关的特征向量

什么样的矩阵可以对角化？

当n维方阵A有n个不同的特征值时，矩阵A才能用上述方式对角化。因为，如果A有n个不同的特征值，那么一定对应有n个相互独立的特征向量。但反过来就不一定成立，比如说单位矩阵有n个不同的特征向量，但他的特征值都是1。下面是我用python在jupyter中所写的代码，他先是导入了部分的数据库，然后计算了一个3x3的单位矩阵的特征向量和特征值。根据结果来看，单位矩阵有3个不同的特征向量【1,0,0】,【0,1,0】,【0,0,1】，但这些特征向量都共用一个特征值1。

(截图来自于我用Jupyter notebook所生成的代码)

矩阵对角化的例子:

最后我们给出一个矩阵对角化的例子作为这部分的小结，假设方阵矩阵A为：

$A=\begin{bmatrix} 1 &5 \\ 0 & 6 \end{bmatrix}$

首先，用jupyter note book求出特征向量和特征值：

注意，他这里的数组要竖着看，也就是说，第一特征向量是array中的第一列【1，0】。第二个特征向量是array中的第二列【0.7071，0.7071】。

Remark: 理论上，无论你有什么软件去去特征向量，特征向量的长度都应该是1,或者说都应该是一个单位向量。

为了方便，我把后面那个特征向量改成[1,1]（我这里不是乱改的，如果自己动手算也能得到这个结果）。如此一来我们得到的两个特征值和他们各自对应的特征向量为：

$\lambda _{1}=1,x_{1}=\begin{bmatrix} 1\\ 0 \end{bmatrix}$ 和 $\lambda _{2}=6,x_{2}=\begin{bmatrix} 1\\ 1 \end{bmatrix}$

相应的在这里我们就能写出特征值矩阵 $\Lambda$ ：

$\Lambda =\begin{bmatrix} \lambda 1 & 0\\ 0 & \lambda 2 \end{bmatrix}=\begin{bmatrix} 1 & 0\\ 0 & 6 \end{bmatrix}$

齐次，用特征向量构建特征向量矩阵X：

$X=\begin{bmatrix} | & |\\ x_{1} &x_{2} \\ |& | \end{bmatrix}=\begin{bmatrix} 1 &1\\ 0 &1 \end{bmatrix}$

求特征向量矩阵X的逆：

$X^{-1}=\begin{bmatrix} 1 &-1 \\ 0& 1 \end{bmatrix}$

代入矩阵的对角化公式完成对角化，看乘法的结果是否正好等于特征向量矩阵 $\Lambda$ ：

$X^{-1}AX=\begin{bmatrix} 1 &-1 \\ 0& 1 \end{bmatrix}\begin{bmatrix} 1 &5 \\ 0& 6 \end{bmatrix}\begin{bmatrix} 1 &1 \\ 0& 1 \end{bmatrix}=\begin{bmatrix} 1 &0 \\ 0& 6 \end{bmatrix}$

这里要注意，矩阵的乘法在python里面的操作符是“@”，也就是上图中我用红框框出来的。如果写错了，计算结果就不对了，我在上图中也演示的错误的结果。

同样的，代入矩阵A的分解公式验证等式两边是否相等：

$A=X\Lambda X^{-1}$

Part II 矩阵的n次幂

矩阵n次幂的计算方法：

当我们要计算矩阵的n次幂时，我们可以先基于前面的矩阵的分解公式对矩阵进行分解后，再计算分解后的矩阵的n次幂。正如下图所示，中间的X与X的逆的乘积都消去了，最终A的n次幂都落在了特征值矩阵 $\Lambda$ 的头上。

$A=X\Lambda X^{-1}\Rightarrow A^{n}=(X\Lambda X^{-1})(X\Lambda X^{-1})...(X\Lambda X^{-1})=X\Lambda ^{n}X^{-1}$

好在 $\Lambda$ 是一个对角阵他的n次幂等于，对角线各元素的n次幂。例如下图中，对角阵A的2次幂和3次幂的结果等于主对角线上元素的对应次幂。

这就是说，假设 $\Lambda$ 矩阵为：

$\Lambda =\begin{bmatrix} \lambda _{1}& & \\ & \lambda _{2} & \\ & & \lambda _{3} \end{bmatrix}$

则它所对应的n次幂为：

$\Lambda ^{n}=\begin{bmatrix} \lambda _{1}^{n}& & \\ & \lambda _{2}^{n} & \\ & & \lambda _{3}^{n} \end{bmatrix}$

注意，通过特征向量和特征值对矩阵A的分解之所以会被用于计算矩阵A的n次幂，是因为这种矩阵的分解方法不同于之前学习的矩阵分解，例如基于高斯消元的LU分解和基于gram-schmidt的QR分解。比如说，我们分别用LU分解和QR分解去计算矩阵的n次幂，我们只会得到下面的结果：

矩阵A的n次幂的例子(A Markov matrix)：

现有一个2x2的Markov矩阵：

$A=\begin{bmatrix} 0.8 &0.3 \\ 0.2& 0.7 \end{bmatrix}$

计算他的特征向量与特征值，基于特征值的判断矩阵是否可对角化。

这个2x2的方阵有两个不同的特征值，对应两个不同的特征向量。因此可以被对角化。这里顺便再检查一下特征向量的长度是否为1。

构建特征值矩阵，特征向量矩阵和特征向量矩阵的逆矩阵：

$X=\begin{bmatrix} 0.8320502&-0.70710678 \\ 0.5547002& 0.70710678 \end{bmatrix},\Lambda =\begin{bmatrix} 1&0 \\ 0& 0.5 \end{bmatrix}$

$X^{-1}=\begin{bmatrix} 0.72111026& 0.72111026 \\ -0.56568542& 0.84852814 \end{bmatrix}$

计算矩阵A的平方：

$A^{2}=X\Lambda ^{2}X^{-1}=\begin{bmatrix} 0.8320502&-0.70710678 \\ 0.5547002& 0.70710678 \end{bmatrix}\begin{bmatrix} 1^{2}&0 \\ 0& 0.5^{2} \end{bmatrix}\begin{bmatrix} 0.72111026& 0.72111026 \\ -0.56568542& 0.84852814 \end{bmatrix}$

计算A的5次方：

$A^{5}=X\Lambda ^{5}X^{-1}=\begin{bmatrix} 0.8320502&-0.70710678 \\ 0.5547002& 0.70710678 \end{bmatrix}\begin{bmatrix} 1^{5}&0 \\ 0& 0.5^{5} \end{bmatrix}\begin{bmatrix} 0.72111026& 0.72111026 \\ -0.56568542& 0.84852814 \end{bmatrix}$

计算A的20次方（这里我使用了python自带的函数算的）：

到目前为止，我们知道矩阵的计算只和两个数的n次幂有关，一个是1，一个是0.5。又因为1的n次幂不变，而随着n的增加，0.5的n次幂只会越来越小。因此，可以预料的是随着n增加的越来越大，这个计算结果必然会收敛到一个极限，这次我们再试试A的100次方：

$A^{100}=X\Lambda ^{100}X^{-1}=\begin{bmatrix} 0.8320502&-0.70710678 \\ 0.5547002& 0.70710678 \end{bmatrix}\begin{bmatrix} 1^{100}&0 \\ 0& 0.5^{100} \end{bmatrix}\begin{bmatrix} 0.72111026& 0.72111026 \\ -0.56568542& 0.84852814 \end{bmatrix}$