1 矩阵及其初等变换

1.1 矩阵及其运算

1.1.1 矩阵的概念

定义：$m \times n$ 矩阵（matrix）是由 $m \times n$ 个数字构成的矩形数表。

为了更方便地求解线性方程组，考虑将其结构化：把所有未知数按顺序排列，将对应未知数的系数抽离到特定的位置（缺少某一未知数时系数为 0），形成一个系数矩阵 $A$；如果需要加入常数，则在系数矩阵的右侧补出一列向量 $b$，并在两者之间划出一条虚线以示区分，形成增广矩阵（enrichment matrix），表示为 $(A|b)$ 或 $(A,b)$。

1.1.2 矩阵的线性运算

矩阵的加减法只能作用于相同尺寸的矩阵。

两矩阵相加（减），相同位置的元素相加（减）即可。

1.1.3 矩阵的乘法

定义：只有型如 $A_{mp}B_{pn}$ 的两个矩阵才能相乘，对于乘积 $C_{mn}$ 的每一个元素有 $c_{ij} = \sum\limits_{k = 1}^p a_{ik} b_{kj}$。

注意，矩阵乘法不满足交换律，但满足结合律。

1.1.4 矩阵的转置运算

定义：对于矩阵 $A_{mn}$，行列互换位置后得到的矩阵称为 $A$ 的转置（transposition），记作 $A^T$。
$$
A_{mn} =
\left|
\begin{array}{cccc}
a_{11} & a_{12} & \cdots & a_{1n} \newline
a_{21} & a_{22} & \cdots & a_{1n} \newline
\vdots & \vdots & \ddots & \vdots \newline
a_{m1} & a_{m2} & \cdots & a_{mn}
\end{array}
\right| ,
A_{nm}^T =
\left|
\begin{array}{cccc}
a_{11} & a_{21} & \cdots & a_{m1} \newline
a_{12} & a_{22} & \cdots & a_{m2} \newline
\vdots & \vdots & \ddots & \vdots \newline
a_{1n} & a_{2n} & \cdots & a_{mn}
\end{array}
\right|
$$

转置运算有以下性质：

$(A^T)^T = A$
$(A + B)^T = A^T + B^T$
$(kA^T) = kA^T$
$(AB)^T = B^T A^T$

对于第四点，设 $A_{mp}B_{pn}$，转置后如果不交换，$A_{pm}^T$ 和 $B_{np}^T$ 连矩阵乘法的型式都不符合。交换后就正确了。

1.2 高斯消元法与矩阵的初等变换

1.2.1 高斯消元法

要解出一般的多元一次方程组，我们熟知的解法是根据等式的性质进行消元，其实这就是高斯消元法。规范地：

置换：交换两个方程组的位置；
数乘：用一个非零的数乘某个方程（等式两边乘同一个非零数，等式依然成立）；
倍加：把一个方程的适当倍数加再另一个方程上（倍数同第二点，两等式左右两边相加，等式依然成立）。

但是，并不是所有方程组都有解，也不是所有方程组都只有一个解：

对于齐次线性方程组：如果得出一个全为零的式子，即矩阵的秩（Rank）小于 $n$，说明存在非零解（无穷解）；如果没有零式，即矩阵的秩等于 $n$，说明只有零解。
对于非齐次线性方程组：如果得出一个全为零的式子，即矩阵的秩小于 $n$，说明存在无穷解；如果得出一个矛盾的式子，即矩阵的秩等于 $n$，说明无解；如果没有零式且没有矛盾，即矩阵的秩等于 $n$，说明存在唯一解；

1.2.2 矩阵的初等变换

矩阵的初等变换（elementary operations）与高斯消元法相同，不过前者作用于矩阵，后者作用于方程组。规范地：

置换：交换两行（列）的位置；
数乘：把某行（列）乘上一个非零数；
倍加：把某行（列）的非零倍加在另一行（列）上。

1.2.3 初等矩阵

定义：初等矩阵（elementary matrix）是将单位矩阵 $I$ 做一次初等变换得到的矩阵。

相应地，有三种初等矩阵：置换阵、数乘阵和倍加阵。

初等矩阵意为起到「初等变换」作用的矩阵：初等变换可以表示为矩阵相乘的形式，对于一个 $m\times n$ 矩阵的初等变换，可以表示为左乘 $m\times m$ 初等矩阵或右乘 $n\times n$ 初等矩阵。

欲将矩阵 $A$ 转化为阶梯矩阵 $A_n$，只需对 $A$ 进行有限的 $n$ 次初等行变换即可。1.2.3 提到，初等变换可以表示为矩阵相乘的形式。因此对矩阵 $A$ 做第一次初等行变换得到矩阵 $A_2$，等价于 $A_2 = F_1A$，其中 $F_1$ 为初等矩阵。在 $A_2$ 的基础上重复相应的初等变换，可以得到 $A_n = F_{n-1}A_{n-1}$。

即：
$$
A_n = F_{n - 1}F_{n - 2}\cdots F_1A
$$

矩阵乘法具有结合律，设变换矩阵 $K = F_{n - 1}F_{n - 2}\cdots F_1$，有 $A_n = KA$。原矩阵$A$ 左乘矩阵 $K$ 即可得到阶梯矩阵 $A_n$。

在一些情况下，$A_n$ 可以通过 $t - n$ 次初等变换得到单位矩阵 $I$，这 $t$ 次初等变换对应的初等矩阵的乘积就是矩阵 $A$ 的逆矩阵。

1.3 逆矩阵

1.3.1 逆矩阵的概念与性质

定义：对于一个 $n$ 阶方阵 $A$，若存在一个 $n$ 阶方阵 $B$，使得 $AB = BA = I$，则称方阵 $B$ 为方阵 $A$ 的逆矩阵（inverse of matrix A）。将 $A$ 的逆矩阵记作 $A^{-1}$。

特别地，一个可逆矩阵和对应逆矩阵满足乘法交换律，即 $AA^{-1} = A^{-1}A = I$。

由上一节可知：可逆矩阵可以通过有限次初等变换得到 $I$，即逆矩阵 $A^{-1}$ 可以由有限的初等矩阵的乘积表示。

既然矩阵有着和数字对应的加减法和乘法，我们便好奇是否存在相应的除法。要探究除法，探究倒数即可，而「逆矩阵」就是这个对应的「倒数」。

引导问题：

所有矩阵都可逆吗，如果不是，什么样的矩阵可逆？
可逆矩阵唯一吗？
如何计算逆矩阵？

可逆性：

初等变换不会改变矩阵的尺寸，而单位矩阵一定是方阵，所以一开始的矩阵必须是方阵；
0 没有倒数；相似地，行列式为 0 的方阵没有逆矩阵。初等变换不会改变矩阵的秩，而单位矩阵的秩为 $n$，所以一开始的矩阵的秩必须与行列数 $n$ 相同，即 $R(A) = n$。此时我们知道：对于 $n$ 阶矩阵 $A$：$|A| = 0$ 等价于 $R(A) < n$。

逆矩阵的唯一性：

设可逆矩阵 $A$ 的一个逆矩阵 $B$ 和另外任意一个逆矩阵 $C$，可得：
$$
B = BI = B(AC) = (BA)C = IC = C
$$
即可逆矩阵的逆矩阵唯一。

计算可逆矩阵：

毫无疑问，理论上用待定系数法可以解出逆矩阵，但是实际上 $n^2$ 个未知数的计算常常很麻烦。下一节将研究可行且更方便的计算方法。

1.3.2 用初等变换求逆矩阵

可逆矩阵可以通过 $t$ 次初等变换得到单位矩阵，而这 $t$ 次初等变换可以写成 $t$ 个初等矩阵的积 $A^{-1}$。要得到逆矩阵，重要的是过程，起点和终点似乎是可以变换的。

将相当于数字 1 的单位矩阵 $I$ 作为起点，通同步变化下来得到的就是初等矩阵的乘积本身，即我们要求的逆矩阵 $A^{-1}$。

构造增广矩阵 $(A,I)$，对其进行初等变化（$A$ 与 $I$ 同步变换）。先将 $A$ 的部分变为阶梯矩阵，再将其变为单位矩阵，此时右侧的矩阵就由单位矩阵 $I$ 变成了对应的逆矩阵 $A^{-1}$。

1.4 分块矩阵

定义：分块矩阵是将一个矩阵分成若干矩阵块的矩阵：
$$
A =
\begin{pmatrix}
A_{11} & \cdots & A_{1t} \newline
\vdots & \ddots & \vdots \newline
A_{s1} & \cdots & A_{st}
\end{pmatrix}
$$
其中每一块 $A_{ij}$ 都是原矩阵的一个子矩阵（可以只有一个数字）。

分块是一种研究矩阵和向量性质时的重要技巧，常见的分块方式有行分块、列分块和对角分块。

对于分块矩阵加减法和乘法法则，也有类似一般矩阵的要求：除了子块整体要符合对应的形式，每个子块也要符合对应的形式。

1.5 矩阵和线性映射初步

定义：对于两个向量 $x$、$y$，和一个可以左乘向量的矩阵 $A$，有 $y = Ax$，则相当于把空间内一点（向量）$x$ 转换成了另一个点（向量）$y$，这种一一对应的变换称为映射。

如果这样的矩阵是对角矩阵，则只会改变与坐标轴平行向量的长度，不会改变它的方向，这样的矩阵称为伸缩矩阵；相应地，存在只改变向量方向的旋转矩阵；当然，也有既改变长度又改变方向的矩阵。

对于 $n$ 维空间的一组基向量，左乘一个映射矩阵 $A$，运算后的向量组可能会存在共线向量，此时这组向量就无法成为 $n$ 维空间的一组基底（无法表示 $n$ 维空间的任意点或向量），则这类矩阵的秩小于 $n$，即 $r(A) < n$。

对于 $n$ 维空间的一组基向量，和一个映射矩阵 $A$，设原向量围成的有向面积（有向超体积）为 $S_1$，映射后的向量围成的有向面积（有向超体积）为 $S_2$，可知存在只与映射矩阵有关的比例系数 $k$ 使得 $S_2 = kS_1$。

易知当 $r(A) < n$ 时，$k = 0$。一般地，将矩阵 $A$ 与比例系数 $k$ 的关系描述为 $k = det(A)$ 或 $k = |A|$，$det(A)$ 或 $|A|$ 称作矩阵 $A$ 的行列式（determinant）。

2 行列式

2.1 行列式的计算及其变换

上一节提到，行列式是一个映射矩阵（方阵）的固有属性，本质是一个映射比例系数。本节将介绍行列式的计算方法。

2.1.1 二阶和三阶行列式的对角线法则

二阶行列式的值等于主对角线元素之积减去副对角线元素之积；
$$
|A| =
\left|
\begin{array}{cccc}
a_{11} & a_{12} \newline
a_{21} & a_{22}
\end{array} \right| = a_{11}a_{22} - a_{12}a_{21}
$$
三阶行列式的值等于三条类主对角线的各自的乘积之和分别减去三条类副对角线的各自的乘积；
$$
|A| =
\left|
\begin{array}{cccc}
a_{11} & a_{12} & a_{13} \newline
a_{21} & a_{22} & a_{23} \newline
a_{31} & a_{32} & a_{33}
\end{array} \right| =
a_{11}a_{22}a_{33} + a_{12}a_{23}a_{31} + a_{13}a_{21}a_{32} - a_{11}a_{23}a_{32} - a_{12}a_{21}a_{33} - a_{13}a_{22}a_{31}
$$
特别地，一阶行列式就等于数字本身。

2.1.2 一般行列式的计算方法

定义：上（下）三角行列式是指左下（右上）区域（不包括主对角线）的元素全都为 0 的行列式。

性质：上（下）三角行列式的值等于主对角线元素之积。

通过行列式的初等变换将一般的行列式转换为上（下）三角行列式，再计算对角线元素之积即可。

一般转换成上三角行列式，有时为了方便计算，可以转换为下三角行列式。之所以可以上下互换，是因为对于任意行列式 $A$ ，有 $det(A) = det(A^T)$。

2.1.3 行列式的初等行（列）变换

与矩阵的初等变换相似，但行列式的初等变换可能改变行列式的值，具体地：

置换：交换两行（列）的位置，新行列式等于原行列式乘 -1；
数乘：把一行（列）乘上一个非零常数 $k$，新行列式等于原行列式的 $k$ 倍；
倍加：把一行（列）的适当倍加到零一行（列）上，行列式的值不改变。

2.2 行列式的降阶及展开

2.2.1 行列式的降阶运算

把行列式转换成上（下）三角行列式的过程想象成一步到位的降维打击。是否存在这样一种情况，虽然只能一步一步降维，但是要求不那么苛刻呢？

答案是有的，这就是行列式的降阶运算。考虑一个特殊的 $n$ 阶行列式 $|D|$：第一行（列）除了 $a_{11}$ 都是 0，即
$$
|D| =
\left|
\begin{array}{cccc}
a_{11} & a_{12} & \cdots & a_{1n} \newline
0 & a_{22} & \cdots & a_{1n} \newline
\vdots & \vdots & \ddots & \vdots \newline
0 & a_{n2} & \cdots & a_{nn}
\end{array}
\right|
or
\left|
\begin{array}{cccc}
a_{11} & 0 & \cdots & 0 \newline
a_{21} & a_{22} & \cdots & a_{1n} \newline
\vdots & \vdots & \ddots & \vdots \newline
a_{n1} & a_{n2} & \cdots & a_{nn}
\end{array}
\right|
$$

此时行列式的值等于 $a_{11}$ 乘上右下方 $n - 1$ 阶行列式的值。

为了方便表示，现定义：在一个 $n$ 阶行列式中，$a_{ij}$ 的余子式（minor）是指原行列式划去第 $i$ 行和第 $j$ 列后剩下的 $n - 1$ 阶行列式，记作 $M_{ij}$。

则行列式的降阶运算可以表示为，当第一行（列）除了 $a_{11}$ 的元素都是 0 时，有
$$
|D| = a_{11}M_{11}
$$

第一行（列）的其余元素都为 0 的要求似乎也很严苛，考虑通过行列式的初等变换将其推广到其余元素为 0 的一般行（列）。显然，通过「置换」即可将处在一般行（列）的元素 $a_{ij}$ 移动到第一行第一列且保持其余的 0。

如果直接与第一行（列）交换，可能导致余子式内部产生行（列）顺序的变化，与相邻的行（列）一步步交换可以避免这样的问题。易知，把 $a_{ij}$ 交换到 $a_{11}$ 需要 $i - 1 + j - 1$ 步置换操作，相应地要乘上 $(-1)^{i - 1 + j - 1} = (-1)^{i + j}$ 来抵消操作带来的影响。

为了方便表示，现定义：在一个 $n$ 阶行列式中，$a_{ij}$ 的代数余子式（algebraic cofactor）是指原行列式划去第 $i$ 行和第 $j$ 列后剩下的 $n - 1$ 阶行列式，再抵消置换带来的影响，即乘上 $(-1)^{i + j}$，记作 $A_{ij}$，$A_{ij} = (-1)^{i + j}M_{ij}$。

则行列式的降阶运算可以表示为，当任意一行（列）除了 $a_{ij}$ 的元素都是 0 时，有
$$
|D| = a_{ij}A_{ij} = a_{ij}(-1)^{i + j}M_{ij}
$$

2.2.2 行列式按行（列）展开以及行列式的递推定义

对于任意元素 $a_{ij} = b + c$，可以把原行列式拆分成两行列式相加，以 $a_{11} = b + c$ 为例：
$$
\left|
\begin{array}{cccc}
b + c & a_{12} & \cdots & a_{1n} \newline
a_{21} & a_{22} & \cdots & a_{1n} \newline
\vdots & \vdots & \ddots & \vdots \newline
a_{n1} & a_{n2} & \cdots & a_{nn}
\end{array}
\right| =
\left|
\begin{array}{cccc}
b & a_{12} & \cdots & a_{1n} \newline
a_{21} & a_{22} & \cdots & a_{1n} \newline
\vdots & \vdots & \ddots & \vdots \newline
a_{n1} & a_{n2} & \cdots & a_{nn}
\end{array}
\right| +
\left|
\begin{array}{cccc}
c & a_{12} & \cdots & a_{1n} \newline
a_{21} & a_{22} & \cdots & a_{1n} \newline
\vdots & \vdots & \ddots & \vdots \newline
a_{n1} & a_{n2} & \cdots & a_{nn}
\end{array}
\right|
$$

试将 $n$ 阶行列式 $D$ 的第一行（列）全部展开为 $n$ 个行列式，这 $n$ 个行列式可以进行降阶运算。重复操作可以得到行列式的递推定义：

按行展开：
$$
\begin{equation}
|D| =
\begin{cases}
a_{11} & n = 1 \newline
a_{11}A_{11} + a_{21}A_{21} + \cdots + a_{n1}A_{n1} & n \ge 2
\end{cases}
\end{equation}
$$
按列展开：
$$
\begin{equation}
|D| =
\begin{cases}
a_{11} & n = 1 \newline
a_{11}A_{11} + a_{12}A_{12} + \cdots + a_{1n}A_{1n} & n \ge 2
\end{cases}
\end{equation}
$$

2.2.3 拉普拉斯定理

拉普拉斯定理借用分块思想对行列式进行展开，是按行（列）展开的推广。

2.3 行列式等于 0 的含义以及矩阵的秩

2.3.1 行列式等于 0 的含义

部分行列式等于 0 的情况：

存在全零行（列），说明行列式等于零；
相应地，存在相等的两行（列），可以通过初等变换得出全零行（列），行列式等于零；
相应地，存在成比例的两行（列），可以通过初等变换得出全零行（列），行列式等于零

与 $n$ 阶矩阵 $A$ 的秩的关系：$|A| = 0$ 说明 $R(A) < n$；$|A| \neq 0$ 说明 $R(A) = n$。

与 $n$ 个 $n$ 元方程组解的关系，记系数矩阵为 $A$：

齐次线性方程组：$|A| = 0$ 或 $R(A) < n$，说明存在非零解；反之，只有零解。
非齐次线性方程组：$|A| = 0$ 或 $R(A) < n$，说明无解或存在无穷解；反之，只有唯一解。

与 $n$ 阶方阵 $A$ 可逆性的关系：$|A| = 0$ 或 $R(A) < n$，说明方阵不可逆；反之，方阵可逆，因为 $|AB| = |BA| = |A||B|$，此时有 $|AA^{-1}| = |A^{-1}A| = |I| = 1$ 和 $|A| = \frac{1}{|A^{-1}|}$。

2.3.2 矩阵的秩

定义：

$m \times n$ 矩阵的 $k(k\leq min{m,n})$ 阶子式是指任取 $k$ 行和 $k$ 列交叉处的 $k^2$ 个元素按照原本相对位置形成的 $k$ 阶行列式。
$m \times n$ 矩阵的秩的一种定义是：其最高阶非零子式的行列数。本质上，矩阵的秩是构成矩阵的向量组表示多维空间的能力。

如果矩阵 $A$ 存在至少一个不为零的 $k$ 阶子式，说明 $R(A) \geq k$；如果矩阵的 $k + 1$ 阶子式全都为零，说明 $R(A) \le k$

3 $n$ 维向量空间

3.1 $n$ 维空间向量基本定理

定义：$n$ 维向量空间是指所有 $n$ 维向量构成的空间，记为 $R^n$。

参考平面向量基本定理，对于 $n$ 维空间中的 $n$ 个列向量 $a_i,i \leq n$，将这些向量组成一个矩阵 $A$，这些向量能够线性表示空间内任意一点（向量）的充要条件是 $R(A) = n$。

假设我们想要表示的向量为 $b$：

当 $R(A) = n$ 时，将各个向量 $a_i$ 所需的系数 $k_i$ 构成一个列向量 $K$，此时有

$$
\begin{align}
AK & = b \newline
K & = A^{-1}b
\end{align}
$$

由于 $b$ 和逆矩阵 $A^{-1}$ 是唯一确定的，所以$K$ 也是唯一确定的。

当 $R(A) < n$ 时，想象空间内存在共线向量或化简方程组系数得到零行，此时 $K$ 有两种情况：
1. 当 $ R(A) < R(A,b)$，相当于 $b$ 是空间外一点，或相当于出现矛盾式，无解；
2. 当 $R(A) = R(A,b)$，相当于 $b$ 与原本的一对共线向量共线，或相当于出现自由未知量，有多解。

你会惊讶地发现，「求解表示某一向量的系数」与「求线性方程组的解」是一样的，而且此时我们无需分类讨论是否齐次，就可以通过系数矩阵的秩和增广矩阵的秩得到解的情况。

目前看来，理解线性代数的最直观的两种方法，就是代入到坐标系中和代入到线性方程组中。

3.2 向量组的线性相关性

3.2.1 线性无关与线性相关

对于一组向量 $a_1,a_2 \cdots a_n$，定义：

设对应的系数组为 $k_1,k_2 \cdots k_n$，等式 $k_1 a_1 + k_2 a_2 + \cdots + k_n a_n = 0$ 只有系数组 $k$ 全为零时有解，则这组向量线性无关；如果存在不全为零的系数组 $k$ 使得等式成立，则这组向量线性相关。
如果存在 $a_i,i \leq n$ 能够被其余 $n - 1$ 个向量线性表示（线性表出），即存在一组系数 $k$ 使得等式 $k_1 a_1 + k_2 a_2 + \cdots + k_{n - 1} a_{n - 1} = a_n$ 成立，则这组向量线性相关；如果任意向量都不能被其余向量线性表示，则这组向量线性无关。

线性相关相当于有这样一组信息：其中某一个信息可以被其他信息推出。也可以理解为：原本只有 $n$ 个方程组，拿这 $n$ 个方程组凑出了第 $n + 1$ 个方程组，这个新的方程组没有带来任何额外的信息，对求解也没有实质性的帮助。

3.2.2 向量组及其构成矩阵的秩

对于 $n$ 个 $m$ 维向量 $a_1,a_2 \cdots a_n$ 及其构成的矩阵 $A$：如果 $R(A) = n$，则向量组线性无关；如果 $R(A) < n$，则向量组线性相关。

如果 $n > m$，因为 $R(A) \leq min{m,n}$，所以向量组必线性无关（参考二维平面内的三个向量，必有一个多余的）。

当向量组线性相关，增加任意个 $m$ 维向量，仍然线性相关。相当于：一批零件中有一个不合格，再怎么加零件都仍然不合格。
当向量组线性无关，增加向量的维度，仍然线性无关。相当于：一批合格的零件，提高每一个零件的品质，仍然合格。

3.3 线性方程组解的结构

3.3.1 齐次线性方程组

对于齐次线性方程组 $AX = 0$，天生地有一组零解 $X = 0$。有时只有零解，有时有多解：

当 $R(A) = n$ 时，其中 $n$ 为未知数个数，齐次线性方程组只有零解；
当 $R(A) \neq n$ 时，有多解。

现研究多解时解的结构，设 $x_1,x_2 \cdots x_s$ 为齐次线性方程组的解，易知对于任意 $s$ 个系数 $k$，$k_1 x_1 + k_2 x_2 + \cdots k_s x_s$ 也是 $AX = 0$ 的一组解。

定义：

设 $W$ 是 $AX = 0$ 的全体解，即 $W = {W \in R^n | WX = 0}$，则称 $W$ 是 $AX = 0$ 的解空间（solution space）。
解空间中的任意一组基向量就是基础解系（fundamental system/set of solutions），且基向量组的向量个数为 $n - R(A)$。
对于任意一组基础解系和对应的任意数 $k$，称 $k_1 x_1 + k_2 x_2 + \cdots k_{s - R(A)} x_{s - R(A)}$ 是 $AX = 0$ 的通解（general solution）。

联系自由未知量可以更好地理解这些概念。

3.3.2 非齐次线性方程组

对于非齐次线性方程组 $AX =b$：

当 $R(A) = n$ 时，其中 $n$ 为未知数个数，方程组有唯一解；
当 $R(A) \neq n$ 时，有多解或无解。

现研究多解时解的结构，定义：$AX = 0$ 是齐次线性方程组 $AX = b$ 的导出组。

设 $AX = b$ 的任意解为 $\gamma$，某一解为 $\gamma_0$，易知 $(\gamma - \gamma_0)X = 0$。设 $x_1,x_2 \cdots x_s$ 为导出组 $AX = 0$的解，对于任意 $s$ 个系数 $k$，所有解都可以描述成：
$$
\gamma_0 + k_1 x_1 + k_2 x_2 + \cdots + k_s x_s
$$
这种描述显然充分，现证明必要：对于任意解 $\gamma$：
$$
A\gamma = A\gamma_0 + A(\gamma - \gamma_0) = A(\gamma_0 + k_1 x_1 + k_2 x_2 + \cdots + k_s x_x) = b
$$
非齐次线性方程组 $AX = b$ 的某一解 $\gamma_0$ 称为特解（particular solution）；与齐次线性方程组类似，通解可以用一个特解和一组向量个数为 $n - R(A)$ 的基础解系表示：
$$
\gamma_0 + k_1 x_1 + k_2 x_2 + \cdots + k_{n - R(A)} x_{n - R(A)}
$$

3.4 向量组的极大线性无关组

3.4.1 极大线性无关组与向量的秩

定义：对于一组向量 $a_1,a_2 \cdots a_n$ 的 $r(r \leq n)$ 个向量构成的子集，满足以下两个条件则可以被称为极大线性无关组（maximal linearly independent system）：

这 $r$ 个向量线性无关；
任意 $r + 1$ 个向量线性相关。

注意，一个向量组的极大无关组不一定是唯一的，但所有极大无关组的向量个数 $r$ 是相同的，且 $r = R(A)$，$A$ 为 $a_1,a_2 \cdots a_n$ 的向量组。

所以，一个向量组（矩阵）的秩也可以用极大线性无关组的向量个数来描述。

3.4.2 等价向量组

定义：设向量组 $A = (a_1,a_2 \cdots a_s)$ 和 $B = (b_1,b_2 \cdots b_t)$，如果任意 $a_i(i = 1,2, \cdots ,s)$ 能够被向量组 $b$ 线性表示，且对任意 $b_j(j = 1,2, \cdots ,t)$ 也如此，即存在任意系数 $k$ 使得
$$
\begin{align}
a_i & = k_1 b_1 + k_2 b_2 + \cdots + k_t b_t,& i = 1,2, \cdots ,s\newline
b_j & = k_1 a_1 + k_2 a_2 + \cdots + k_s a_s,& j = 1,2, \cdots ,t
\end{align}
$$
成立（$a$ 和 $b$ 的 $k$ 不要求相等，能够线性表示即可），则称向量组 $a_1,a_2 \cdots a_s$ 和 $b_1,b_2 \cdots b_t$ 是等价向量组（Equivalent vectors），记作 $A \cong B$。

等价向量组的意义是，能够描述同一个线性空间的向量组。向量组 $A$ 的极大无关组是 $R(A)$ 维线性空间 $R^{R(A)}$ 的一组基。

3.5 线性空间基变换

定义：对于 $R^n$ 的两组基向量 $A = (a_1,a_2 \cdots a_n)$ 和 $B = (b_1,b_2 \cdots b_n)$，易知存在可逆矩阵 $K$ 使得 $A = BK$，则这样用于转换基向量 $K$ 的矩阵称为过渡矩阵（transition matrix）。

设向量 $s$ 在以 $a_1,a_2 \cdots a_n$ 和 $b_1,b_2 \cdots b_n$ 为基向量的坐标分别为 $s_1\ s_2$，则 $As_1 = Bs_2$，欲推导两基向量下坐标的关系：
$$
\begin{align}
Bs_2 & = As_1 \newline
& = BKs_1 \newline
\text{then }s_2 & = Ks_1 \newline
\text{or } s_1 & = K^{-1}s_2
\end{align}
$$

4 特征值与特征向量

4.1 单位正交基向量

4.1.1 向量的内积

定义：

对于一个 $n$ 维向量 $\alpha = (a_1,a_2 \cdots ,a_n)^T$，向量的长度（或称模，module）为 $\sqrt{a_1^2 + a_2^2 + \cdots + a_n^2}$，记作 $||\alpha||$；
$\alpha$ 和另一 $n$ 维向量 $\beta = (b_1,b_2 \cdots ,b_n)^T$ 的内积（或称点积，叉乘，inner product of vectors）为 $\alpha^T \beta = a_1 b_1 + a_2 b_2 + \cdots + a_n b_n$，记作 $(\alpha , \beta)$。
设两向量 $\alpha ,\beta$ 之间的夹角（vector angle）为 $\theta$，$\theta = \arccos\frac{(\alpha ,\beta)}{||\alpha||\ ||\beta||}$，记作 $\langle \alpha,\beta \rangle$。

4.1.2 单位正交基向量与正交矩阵

定义：对于任意空间的一组基向量，如果全体向量的长度都为 1，且基向量中的任意两向量两两正交（垂直或内积为 0），则称这一组基向量为单位正交基向量。

考虑一组一般的基向量 $A$ ，在这组基向量下的坐标表示 $\alpha = (a_1,a_2 \cdots ,a_n)^T$ 和 $\beta = (b_1,b_2 \cdots ,b_n)^T$，现欲计算 $(\alpha,\beta)$：
$$
\begin{align}
(\alpha,\beta) & = (A \alpha)^T A \beta \newline
& = \alpha^T A^T A \beta \newline
\end{align}
$$
$\alpha^T$ 和 $\beta$ 都比较好算，而：
$$
A^T A = \left(
\begin{array}{cccc}
a_1^T a_1 & a_1^T a_2 & \cdots & a_1^T a_n \newline
a_2^T a_2 & a_2^T a_2 & \cdots & a_2^T a_n \newline
\vdots & \vdots & \ddots & \vdots \newline
a_n^T a_1 & a_n^T a_2 & \cdots & a_n^T a_n
\end{array}
\right)
$$
看着就比较麻烦，要算 $n^2$ 个内积。不过麻烦中有一丝生机：当全体向量的长度都为 1，且任意两两向量之间正交，此时有
$$
A^T A = I
$$
一下子就和原来求内积一样方便了，这就是单位正交基向量的重要意义。

定义：由一组单位正交基向量组成的实数矩阵是正交矩阵（The orthogonal matrix），设其为 $A$，则 $A^T A = A A^T = I$。

正交矩阵的行列式值为 1 或 -1，证明：
$$
\begin{align}
|A^TA| & = |A^T|\ |A| \newline
& = {|A|}^2 \newline
& = |I| \newline
& = 1 \newline
\text{so } |A| & = \pm 1
\end{align}
$$

下一节将讨论如何将一组一般的基向量转化为单位正交基向量。

4.1.3 施密特正交化

要将一组一般的基向量 $\alpha_1,\alpha_2,\cdots,\alpha_n$ 转化为一组单位正交基向量，很容易想到直接用过渡矩阵转化为坐标轴上的单位向量。然而这种转换会破坏原有基向量的性质，且转换前后的向量组可能不等价，一个简单的例子是 $xy$ 平面和 $xz$ 平面不是一个平面。于是我们想要寻求一个基于原来的基向量的转换方法，这就是施密特正交化。

正交化：

设 $\beta_1 = \alpha_1$ 和 $\beta_2 = \alpha_2 + k\beta_1$，易知存在 $k$ 使得 $(\beta_1,\beta_2) = 0$，即 $(\beta_1,\alpha_2 + k\beta_1) = 0$，化简得 $k = -\frac{(\beta_1,\alpha_2)}{(\beta_1, \beta_1)}$，所以 $\beta_2 = \alpha_2 - \frac{(\beta_1,\alpha_2)}{(\beta_1, \beta_1)}\beta_1$。

推广到任意 $\beta_n(n \neq 1)$ :
$$
\begin{align}
\beta_n & = \alpha_n + k_{n - 1}\beta_{n - 1} + \cdots + k_1 \beta_1 \newline
& = \alpha_n - \frac{(\beta_{n - 1},\alpha_n)}{(\beta_{n - 1},\beta_{n - 1})}\beta_{n - 1} - \cdots - \frac{(\beta_1,\alpha_2)}{(\beta_1, \beta_1)}\beta_1
\end{align}
$$

单位化：

设向量组 $\gamma_1,\gamma_2,\cdots,\gamma_n$，对于 $\gamma_i(i = 1,2,\cdots,n)$ 有
$$
\gamma_i = \frac{1}{||\beta_i||} \beta_i
$$
此时向量组 $\gamma_1,\gamma_2,\cdots,\gamma_n$ 就是与 $\alpha_1,\alpha_2,\cdots,\alpha_n$ 等价的单位正交基向量。

4.2 特征值与特征向量

4.2.1 特征值与特征向量的概念

定义：在 $R^n$ 中，对于 $n$ 阶方阵 $A$ 和非零向量 $\alpha$，如果存在常数 $\lambda$ 使得 $A\alpha = \lambda\alpha$ 成立，则称 $\lambda$ 为 $A$ 的一个特征值（characteristic value 或 eigenvalue)，$\alpha$ 为特征值 $\lambda$ 对应的一个特征向量（eigenvector）。

易知，特征向量 $\alpha$ 的 $k$ 倍 $k\alpha$ 也是特征向量，即 $A(k\alpha) = k(A\alpha) = k(\lambda\alpha) = \lambda(k\alpha)$。

其实，这里的矩阵 $A$ 就是映射矩阵，更确切的说，是将特征向量拉伸 $\lambda$ 倍的伸缩矩阵。下面从伸缩矩阵（即对角矩阵）和一般的映射矩阵，和其下的特征向量和一般的向量四个维度来讨论。

伸缩矩阵（对角矩阵）：

坐标轴非零向量（特征向量）：对角矩阵对角线上的每一个元素都是特征值，而每一个坐标轴上的非零向量 $e_i$ 都是特征向量，即 $Ae_i = \lambda_i e_i$；
一般向量：一个一般的向量 $\alpha = k_1 e_1 + k_2 e_2 + \cdots + k_n e_n$ 经过 $A$ 映射后，某坐标方向被拉伸为该坐标方向向量的特征值倍，即 $A\alpha = k_1\lambda_1e_1 + k_2\lambda_2e_2 + \cdots + k_n\lambda_ne_n$。

一般矩阵：

特征向量：与定义相同，没有什么特别。设为 $\alpha_1,\alpha_2,\cdots,\alpha_s$，对应的特征值为 $\lambda_1,\lambda_2,\cdots,\lambda_s$；
一般向量：这里假设特征向量都够表示一般向量，即特征向量组的极大无关组能够构成一组基。设一般向量 $\beta = k_1\alpha_1 + k_2\alpha_2 + \cdots + k_s \alpha_s$，则 $A\beta = k_1\lambda_1\alpha_1 + k_2\lambda_2\alpha_2 + \cdots + k_s\lambda_s\alpha_s$。

无疑，全体坐标轴上非零向量的极大无关组能构成一组基；然而，一个一般矩阵的全体特征向量的极大无关组一定能构成一组基吗？在下一节中，我们会找到这个问题的答案。

4.2.2 特征值与特征向量的计算

将特征值的定义式转换为齐次线性方程组 $(\lambda I - A)\alpha = 0$，又因为特征向量 $\alpha$ 为非零向量，所以方程组存在非零解，即 $R(\lambda I - A)<n$。含参数矩阵的秩似乎不好算，又因为 $\lambda I$ 和 $A$ 都是 $n$ 阶方阵，所以可以转换为求行列式：$|\lambda I - A| = 0$。最终会得到一个关于 $\lambda$ 的一元 $n$ 次方程，必有 $n$ 个根，这个方程称为矩阵 $A$ 的特征方程（characteristic equation），这里的 $|\lambda I - A|$ 称为特征多项式（characteristic polynomial）。

将解出来的 $\lambda$ 回代到 $(\lambda I - A)\alpha = 0$，可以得到特征向量。不同特征值解出的特征向量线性无关；相同特征值的重根解出来的特征向量可能线性相关，也可能线性无关，线性相关时则特征向量无法构成 $R^n$ 的基向量。甚至还有 $\lambda$ 为复数的情况，这里就不做讨论了。

4.3 相似矩阵以及矩阵的相似对角化

4.3.1 相似矩阵的本质及其部分性质

设向量 $s$ 在分别以 $A = (a_1,a_2 \cdots a_n)$ 和 $B = (b_1,b_2 \cdots b_n)$ 为基向量的坐标为 $s_1$ 和 $s_2$，则 $s = As_1 = Bs_2$；设 $A$ 与 $B$ 之间的过渡矩阵为 $P$，则 $A = BP，s_1 = P^{-1}s_2$。

设映射矩阵 $K_1$ 将 $s_1$ 映射为 $s_1’$，想要得到相应的 $s_2’$ 使得 $As_1’ = Bs_2’$，不能简单地将 $s_2$ 左乘 $K_1$。由于 $A\ B$ 都是基向量，必然存在映射矩阵 $K_2$ 使得 $AK_1s_1 = BK_2s_2$，现欲探究 $K_1$ 和 $K_2$ 之间的关系：
$$
\begin{align}
AK_1s_1 & = BK_2s_2 \newline
(BP)K_1s_1 & = BK_2s_2 \newline
BPK_1(P^{-1}s_2) & = BK_2s_2 \newline
PK_1P^{-1} & = K_2 \newline
K_1 & = P^{-1}K_2P
\end{align}
$$
定义：对于两个 $n$ 阶方阵 $K_1\ K_2$，如果存在可逆矩阵 $P$ 使得 $K_1 = P^{-1}K_2P$，则称 $K_1$ 和 $K_2$ 是相似矩阵（similar matrix），记作 $K_1 \sim K_2$。

相似矩阵具以下有非常良好的性质：

$|K_1| = |K_2|$；
$tr(K_1) = tr(K_2)$，此处 $tr()$ 表示矩阵的迹数（trace），即某矩阵主对角线元素之和；
$|\lambda I - K_1| = |\lambda I - K_2|$；
$K_1$ 和 $K_2$ 的特征值相同；
$R(K_1) = R(K_2)$。

相似矩阵的逆矩阵、伴随矩阵和转置矩阵等都有类似的性质，此处就不一一列举了。为了与下一节衔接，此处证明下一节将用到的第四点，先证明第三点：
$$
\begin{align}
K_1 & = PK_2P^{-1} \newline
\lambda I - K_1 & = \lambda I - PK_2P^{-1} \newline
|\lambda I - K_1| & = |\lambda I - PK_2P^{-1}| \newline
& = |P\lambda IP^{-1} - PK_2P^{-1}| \newline
& = |P(\lambda - K_2)P^{-1}| \newline
& = |P|\ |\lambda I - K_2|\ |P^{-1}| \newline
& = |\lambda I - K_2|
\end{align}
$$
我们证明了相似矩阵的特征多项式相同，因此相似矩阵的特征方程相同，因此相似矩阵特征方程的解，即特征值相同，第四点得证。

4.3.2 矩阵相似对角化

对角矩阵具有方便计算的性质，把一个矩阵 $A$ 转换成一个与之相似的对角矩阵 $U$ 的过程称为相似对角化。

对于伸缩矩阵来说，主对角线上的元素就是特征值，而相似矩阵特征值相同，是不是可以直接用 $A$ 的特征值构成 $U$ 呢？

这里还有一个限制，那就是特征向量组的秩必须与 $A$ 的秩相同，换言之，特征向量组至少得是一组基。

4.3.3 实对称矩阵的相似对角化

定义：如果矩阵 $A$ 的每一个元素都是实数，且 $A$ 是对称的，即$A = A^T$，则将其称为实对称矩阵（symmetric matrices）。

实对称矩阵有两个重要性质：

所有特征值都是实数；
不同特征值对应的特征向量彼此正交。

5 二次型

5.1 二次型的概念

定义：二次型（quadratic form）是关于一组自变量的齐次二次函数，即每一项都为二次的函数。

对于任意二次型，可以化为 $X^TAX$ 的形式，如果把每一个由两个未知数相乘的项分为相等的两半，并分别合并到对应的未知数中，那么得到的矩阵 $A$ 就是实对称矩阵。定义二次型的秩等于实对称矩阵的秩。

定义：考虑不同基下的同一个二次型 $X^TAX = Y^TBY,X = PY$，则 $Y^TP^TAPY = Y^TBY$，即 $P^TAP = B$，则称 $A$ 与 $B$ 是合同矩阵（matrix congruence）。

合同矩阵与相似矩阵很像，矩阵的相似对角化可以简化计算，那么合同矩阵的对角化呢？

Contents