Chapter 1.
线性方程组 Linear System
-
相容(Consistent):线性方程组有至少一组解。
行观点 Row Picture:方程组相容,则直线 / 平面相交。
列观点 Column Picture:列向量的和(线性组合):uα+vβ+wγ=b。
-
非奇异(Nonsingular):线性方程组恰有一组解。
-
等价线性方程组(Equivalent Systems):有相同解集的线性方程组。
高斯消元法
基本操作:
-
任意改变两行顺序。
-
同行乘以非零数。
-
某一行乘上一个非零数后加到另一行上。
不断进行操作 1、3,直到消为上三角矩阵,代入。
矩阵 Matrix:
A=⎣⎢⎢⎢⎢⎡a11a21⋮am1a12a22⋮am2⋯⋯⋱⋯a1na2n⋮amn⎦⎥⎥⎥⎥⎤=(aij)m×n
增广矩阵 Augmented Matrix:
[A∣b]=⎣⎢⎢⎢⎢⎡a11a21⋮an1a12a22⋮an2⋯⋯⋱⋯a1na2n⋮annb1b2⋮bn⎦⎥⎥⎥⎥⎤
上三角矩阵 (Upper-)Triangle System U
下三角矩阵 Lower-Triangle System L
主元 Pivot:非零行的第一个非零元素。
行阶梯型 Row Echelon Form:形如 ⎣⎢⎡100100110⎦⎥⎤。
基本运算
矩阵加法:(aij)m×n±(bij)m×n=(aij±bij)m×n。要求两个矩阵大小一致。
矩阵数乘:cA=(cai,j)m×n。
矩阵乘法:若 A=(aij)m×n,B=(bij)n×l,则 AB=A(b1,b2,⋯,bl)=(Ab1,Ab2,⋯,Abl)。要求 A 的列数等于 B 的行数。
解线性方程组即求 Ax=b 中的 x(x 和 b 均为列向量)。
-
恒等矩阵 / 单位矩阵 I:形如 ⎣⎢⎡111⎦⎥⎤。
-
方阵 Square:行列数相等。
-
定义 Eij(l) 为恒等矩阵的基础上,第 i 行第 j 列为 l 的矩阵。
左乘 Eij(l),相当于把第 j 行乘 l 加到第 i 行上。
右乘 Eij(l),相当于把第 i 列乘 l 加到第 j 列上。
-
两个下三角矩阵(默认为方阵)的乘积仍为下三角矩阵。
初等行变换:
矩阵的次方:
要求 A 是方阵。设 A=(aij)n×n。
运算律
加法结合律:满足。
加法交换律:满足。
乘法结合律:(AB)C=A(BC)。
证明:设 A=(aij)m×n,B=(bjk)n×s,C=(ckl)s×r,V=AB=(vik)m×s,W=BC=(wjl)n×r,有 vik=∑j=1naijbjk,wjl=∑k=1sbjkckl。
计算 ((AB)C)il=(VC)il=∑k=1svikckl=∑k=1s∑j=1naijbjkckl。
计算 (A(BC))il=(AW)il=∑j=1naijwjl=∑j=1naij∑k=1sbjkckl。
二者一致。得证。
乘法交换律:不满足。
(αβ)A=α(βA)。
α(AB)=A(αB)。
数乘对数加的分配律:(α+β)A=αA+βA。
数乘对矩阵加法的分配律:α(A+B)=αA+αB。
矩阵乘法对矩阵加法的分配律:A(B+C)=AB+AC。
初等矩阵 Elementry Matrix
Type I:左乘交换两行,右乘交换两列:(左行右列)
⎣⎢⎡111⎦⎥⎤
Type II:左乘改变第 i 行,右乘改变第 i 列:
⎣⎢⎡211⎦⎥⎤
Type III:Eij(l):
⎣⎢⎡1211⎦⎥⎤
LU 分解
U 就是高斯消元得到的上三角矩阵。
如果一个矩阵能仅通过第三种初等行变换就得到一个上三角矩阵,那么这个矩阵就有一个 LU 分解。下三角矩阵 L 中记录了消元过程中的乘子(的相反数)。
LU 分解不具有唯一性。
Ax=b⇒{Lc=bUx=c
LDU 分解
D 是对角矩阵,用以将 U 的对角线全部变成 1。
⎣⎢⎡26−36−61⎦⎥⎤=⎣⎢⎡2−31⎦⎥⎤⎣⎢⎡131321⎦⎥⎤
LDU 分解具有唯一性。
分块矩阵 Partitioned Matrix
-
AB=A[b1b2⋯bl]=[Ab1Ab2⋯Abl]=⎣⎢⎢⎢⎢⎡a1a2⋮an⎦⎥⎥⎥⎥⎤B=⎣⎢⎢⎢⎢⎡a1Ba2B⋮anB⎦⎥⎥⎥⎥⎤
bk 可以是某几列一起,ai 也可以是某几行一起。
-
AB=[A11A21A12A22][B11B21B12B22]=[A11B11+A12B21A21B11+A22B21A11B12+A12B22A21B12+A22B22]
-
AB 的每一列都是 A 的列向量的线性组合,每一行都是 B 的行向量的线性组合。
置换矩阵 Permutation Matrix
n 阶置换矩阵有 n! 个。
借助置换矩阵,我们可以使任意矩阵可以被 LU 分解,即:PA=LU。
逆矩阵 Inverse Matrix
对于 n 阶方阵 A,其逆矩阵 A−1 满足 AA−1=A−1A=In。有 (A−1)−1=A。
-
2 阶方阵 [acbd] 的逆存在,当且仅当 ad−bc=0。其逆为 ad−bc1[d−c−ba]。
-
对角矩阵 ⎣⎢⎡d1⋱dn⎦⎥⎤(∀di=0)的逆为 ⎣⎢⎡d1−1⋱dn−1⎦⎥⎤
注意 (AB)−1=B−1A−1。【交换顺序】
逆矩阵具有唯一性。
证明:若 B,C 都是 A 的逆,那么 (BA)C=C=B(AC)=B,即 B=C。
若 Ax=0 有非零解,那么 A 不可逆。
证明:假设 A 可逆,那么 A−1(Ax)=A−10,则 x=0,矛盾。
求逆方法:
n 阶方阵 A 可逆的充要条件:
可逆 = 非奇异 = n pivots!
上(下)三角矩阵的逆仍是上(下)三角矩阵。
高斯约旦法 Gauss-Jordan
[A∣In]=⎣⎢⎡a11a21a31a12a22a32a13a23a33111⎦⎥⎤
先进行高斯消元,使其变为上三角矩阵:
⎣⎢⎡a11′a12′a22′a13′a23′a33′??????⎦⎥⎤
再从最后一行开始向上消元,使其变为对角矩阵:
⎣⎢⎡a11′′a22′′a33′′?????????⎦⎥⎤
最后每一行乘上 aii′′1,变为:
⎣⎢⎡111?????????⎦⎥⎤
此时竖线右边是 A−1。
转置矩阵 Transpose Matrix
性质:
-
(AT)T=A。
-
(αA)T=αAT。
-
(A+B)T=AT+BT。
-
(AB)T=BTAT。【交换顺序】
-
(A−1)T=(AT)−1。
对称矩阵 Symetric Matrix
满足 A=AT 的 n 阶方阵 A。
性质:
矩阵与幂级数
定义 N=⎣⎢⎡010010⎦⎥⎤,则 N2=⎣⎢⎡000100⎦⎥⎤,N3=0。
那么 ∑n=0∞(aN)n=1+aN+aN2=(1−aN)−1。(I=1)
更高维度时相同。
Chapter 2.
向量空间 Vector Space
公理:
-
x+y=y+x。
-
(x+y)+z=x+(y+z)。
-
存在唯一的零向量 0,使得 x+0=0+x=x。
-
∀x,存在唯一的 −x,使得 x+(−x)=0。
-
1⋅x=x。
-
(c1c2)x=c1(c2x)。
-
c(x+y)=cx+cy。
-
(c1+c2)x=c1x+c2x。
实向量空间 Real Vector Space:是一个满足加法和数乘的“向量”集合,也即满足上述 8 条公理。它是抽象的。
性质(x,y,z∈V):
-
0⋅x=0。
证明:0⋅x+x=0⋅x+1⋅x=(0+1)⋅x=x,同理 x+0⋅x=x,所以 0⋅x=0。
-
(−1)⋅x=−x。
-
若 x+y=x+z,则 x=z。
-
β⋅0=0。
-
若 αx=0,则 α=0 或 x=0。
子空间 Subspace:W 是 V 的非空子集,满足:
-
∀x,y∈W,x+y∈W。
-
∀x∈W,c∈R,cx∈W。
(任意线性组合也在 W 中)
推出:0∈W。
零空间 Zero Space:W={0}。
列空间 Column Space
一个 m×n 的矩阵 A 的列空间是它所有列的线性组合,记为 C(A)。显然 C(A)⊆Rm。
应用:
- 方程 Ax=b 有解(相容)等价于 b∈C(A)。
核空间 Nullspace / 零空间
一个 m×n 的矩阵 A 的核空间是所有满足 Ax=0 的 n 维向量 x 的集合,记为 N(A)={x∈Rn∣Ax=0}。显然 N(A)⊆Rn。
求核空间:
-
定义行最简型(Reduced Row Echelon Form)矩阵为消元后满足如下条件的矩阵:
-
非零行都在全零行的上方,且主元列号递增。
-
主元全为 1。
-
主元所在列其它元素都为 0。
-
定义自由变量为没有主元的列的元素。当未知元的个数(列数 n)大于主元个数(行数 m)时,就会出现自由变量;此时 Ax=0 就有非零解。
-
定义矩阵的秩(Rank)为化为行最简型后主元的个数,记为 r(A) 或 rank(A)。
求解步骤:
-
高斯消元,得到行最简型矩阵,例如:
⎣⎢⎡131−11⎦⎥⎤
-
将每个非零行,把主元写在左边,自由变量写在右边,得到一个方程组,例如:
{x1=−3x2+x4x3=−x4
-
为自由变量设未知数,例如 x2=a、x4=b,得到核空间为:
N(A)=⎩⎪⎪⎪⎨⎪⎪⎪⎧⎣⎢⎢⎢⎡−3a+ba−bb⎦⎥⎥⎥⎤∈R4∣a,b∈R⎭⎪⎪⎪⎬⎪⎪⎪⎫
-
我们也可以通过设某自由变量为 1,其它自由变量为 0,得到特解:
x=a⎣⎢⎢⎢⎡−3100⎦⎥⎥⎥⎤+b⎣⎢⎢⎢⎡10−11⎦⎥⎥⎥⎤⇒C⎝⎜⎜⎜⎛⎣⎢⎢⎢⎡−310010−11⎦⎥⎥⎥⎤⎠⎟⎟⎟⎞
应用:
-
如果找到 Ax=b 的特解,那么该特解加上核空间内向量可以得到所有解。
直接求 Ax=b 的解集:
在求行最简型矩阵过程中,右边增广一列:
b=⎣⎢⎢⎢⎢⎡b1b2⋮bn⎦⎥⎥⎥⎥⎤
消元得到行最简型时,有解等价于全零行右边全为零。
由非零行,可以得到如下方程:
{x1=−2−3x2+x4x3=1−x4
把所有自由变量设为 0,可以得到一组 Ax=b 的特解:
xp=⎣⎢⎢⎢⎡−2010⎦⎥⎥⎥⎤
那么加上 N(A) 即可得到解集。
线性无关 Linear Independent
定义:若向量 v1,v2,⋯,vn 满足方程 c1v1+c2v2+⋯+cnvn=0 只在 c1=c2=⋯=cn=0 时成立,那么这 n 个向量线性无关。
据此,重新定义 A 的秩 r(A) 为最多的线性无关的行的数量。
A 所有行线性无关,等价于 Ax=0 只有全零解(没有非零解),等价于 N(A)={0}。
判断 n 个列向量 vi∈Rm 是否线性无关(n≤m):
判断 n 个行向量 vi∈Rm 是否线性无关(n≤m):
基 Basis
向量空间 V 由一组向量张(Span)出,即 V 是这组向量的线性组合,记为 V=span{v1,v2,⋯,vn}。等价于,∀v∈V,∃!c1,c2,⋯,cn∈R,使得 v=c1v1+c2v2+⋯+cnvn。(∃! 表示“存在唯一”)
若这组向量线性无关,则我们称这组向量是 V 的基。
标准基 Standerd Basis:e1,e2,⋯,en 是 Rn 的标准基。其中 ei 是仅第 i 个元素为 1、其余元素为 0 的列向量。
定理:V 的所有基的向量个数相等。据此定义向量空间的维数(Dimension)为它的基的向量个数。
证明:假设两个基 V=span(v1,v2,⋯,vm)=span(w1,w2,⋯,wn),且 m<n。
则 ∀i,wi=a1iv1+a2iv2+⋯amivm,即:
[w1⋯wn]=[v1⋯vm]⎣⎢⎢⎡a11⋮am1a12⋮am2⋯⋱⋯a1n⋮amn⎦⎥⎥⎤
因为 m<n,所以 Ax=0 有无穷多个解。设一个非零解 x=⎣⎢⎢⎡c1⋮cn⎦⎥⎥⎤,那么有:
[w1⋯wn]⎣⎢⎢⎡c1⋮cn⎦⎥⎥⎤=[v1⋯vm]⎣⎢⎢⎡a11⋮am1a12⋮am2⋯⋱⋯a1n⋮amn⎦⎥⎥⎤⎣⎢⎢⎡c1⋮cn⎦⎥⎥⎤=0
即 c1w1+c2w2+⋯cnwn=0。故 w1,w2,⋯,wn 线性相关,不是 V 的基。矛盾。
判断 v1,v2,⋯,vn∈Rn 是否是 Rn 的基:
设 A=[v1v2⋯vn]。由定义,需要满足以下两个条件:
-
span{v1,v2,⋯,vn}=Rn。等价于 ∀b,Ax=b 相容。
-
v1,v2,⋯,vn 线性无关。等价于 Ax=0 非奇异(没有非零解),即 N(A)={0}。
由上可知,∀b,Ax=b 非奇异。等价于矩阵 A 可逆。
四个基本子空间
设 A 是 m×n 的矩阵。
求列空间 C(A) 的基:
求行空间 C(AT) 的基:
-
初等行变换不会改变行空间。我们将 A 消为行阶梯型 U 后,U 的每一个非零行都线性无关,这些行构成 C(AT) 的一组基。
因此,dimC(AT)(行秩)等于 rank(A)。(行秩等于列秩等于秩,rank(A)=rank(AT))
求零空间 N(A) 的基:
-
Ax=0 的一组特解构成 N(A) 的一组基。
因此,dimN(A)(零化度 Nullity)等于 n−rank(A)。
-
秩-零化度定理:
dimC(A)+dimN(A)=r+n−r=n
求左零空间 N(AT) 的基:
-
即求 ATy=(ATy)T=yTA=0。根据秩-零化度定理,dimC(AT)+dimN(AT)=m,故 dimN(AT)=m−rank(A)。
-
利用 A=LU,得到:
L−1A=⎣⎢⎢⎢⎢⎡y1Ty2T⋮ymT⎦⎥⎥⎥⎥⎤A=U
其中,yiT 是 L−1 的每一行。最后 m−r 行构成 N(AT) 的一组基。
可以直接对 [A∣Im] 消元,左边全零行对应的右边构成基。
总结:
-
A 可逆,等价于:
-
rank(A)=n;
-
C(A)=C(AT)=Rn;
-
N(A)=N(AT)={0}。
秩不等式 Rank Inequality
rank(AB)≤min{rank(A),rank(B)}
右逆和左逆 Right-Inverse & Left-Inverse
定义:m×n 的矩阵 A 和 n×m 的矩阵 B 若满足 AB=In,那么 A 是 B 的右逆,B 是 A 的左逆。
存在性:
-
A 存在右逆的充要条件是 rank(A)=m(行满秩)。
A 存在左逆的充要条件是 rank(A)=n(列满秩)。
可以通过例子 A=[10],B=[10],AB=[1] 来记忆。
-
推论:A 既有右逆右有左逆,当且仅当 rank(A)=m=n。
最好的右 / 左逆:
秩一矩阵 Rank 1 Matrix
定理:任意一个秩一矩阵都可以被写成一个行向量乘以一个列向量。我们已经使用此性质来计算秩一矩阵的 n 次方。
n×n 的矩阵左乘在(列)向量 ∈Rn 上,得到一个新的向量。
-
伸缩:A=[cc],A[xy]=[cxcy]。
-
旋转:A=[1−1],A[xy]=[−yx](逆时针旋转 90°)。
-
反射:A=[1−1],A[xy]=[x−y]。
-
投影:A=[1],A[xy]=[x0]。
定义:
-
定义:两个向量空间 V,W 的映射 T:V→W 满足:
则 T 是线性变换 / 线性映射。
-
性质:原点永远不变。
-
定理:如果我们知道 V 和 W 的基 v1,⋯,vn 和 w1,⋯,wm,那么 T 可以由 Am×n 表示。A 被称为表示矩阵。
具体地,T(vj)=a1jw1+a2jw2+⋯+amjwm,也即:
T([v1⋯vn])=[T(v1)⋯T(vn)]=[w1⋯wm]A
复合:
坐标变换 Coordinate Transformation:
-
旋转 θ:Tθ=[cosθsinθ−sinθcosθ]。易证 Tγ∘Tθ=Tθ+γ。
-
投影到直线 θ:Pθ=[cos2θcosθsinθcosθsinθsin2θ]。易证 Pθ∘Pθ=Pθ。
-
反射在直线 θ:Rθ=[cos2θsin2θsin2θ−cos2θ]。易证 Rθ∘Rθ=I。
相似变换:
-
设 T:V→V,A 是关于基 v1,⋯,vn 的表示矩阵,B 是关于基 w1,⋯,wn 的表示矩阵,那么存在矩阵 S,使得 B=S−1AS。
证明:由 T(vS)=(vS)B 且 T 是线性的,得 T(v)S=v(SB)。
而 T(v)=vA,故 (vA)S=v(SB),即 AS=SB,即 B=S−1AS。
Chapter 3.
正交 Orthogonal
定义:
-
长度:∥x∥=∑xi2=xTx。
-
垂直:x⊥y 当且仅当 ∑xiyi=xTy=0。
-
角度:cosθ=∥x∥∥y∥xTy。用柯西证得它的绝对值不超过 1。
定理:
-
若 v1,⋯,vn 互相垂直,则 v1,⋯,vn 线性无关。
-
余弦定理:∥y−x∥2=∥x∥2+∥y∥2−2∥x∥∥y∥cosθ。
正交基:
- 我们称互相垂直且能张出整个空间的一组向量 v1,⋯,vn 为正交基。
正交补 Orthogonal Complement
-
对于 V⊆U,定义 V⊥={u∈U∣u⊥V}。
-
维数关系:dimV+dimV⊥=dimU。
-
性质:(V⊥)⊥=V。
四个基本子空间:
-
C(A)⊥=N(AT),N(AT)⊥=C(A)。
C(AT)⊥=N(A),N(A)⊥=C(AT)。
-
推论:Ax=b 有解,等价于 b∈C(A),等价于 b⊥N(AT)。
投影 Projection
-
b 在 a 方向上的投影为 aTaaTba=aTaaaTb。
P:Rnb⟶Rn⟼aTaaaT⋅b
-
易证 P2=P,PT=P。
-
C(P)=span{a},N(P)={v∣v⊥a}。
最小平方法 Least Square Solution
ATAx=ATb
若有截距,则在 A 右边增广一列全 1 列,x 的最后一位就是截距。
证明:给出向量 a,b,做拟合 xa=b(x∈R)的误差的平方 E2=∥xa−b∥2 最小时,xa 是 b 在 a 方向上的投影。画图几何分析易证。
给出向量 a1,a2,⋯,an,b,做拟合 x1a1+x2a2+⋯+xnan=b 的误差的平方 E2=∥x1a1+x2a2+⋯+xnan−b∥ 最小时,相似地,答案是 b 在 C(A)(A=[a1a2⋯an])上的投影(由余弦定理)。设投影点为 p=Ax^(x^ 是向量),则 p−b∈C(A)⊥=N(AT),则:
AT(p−b)ATAx^=0=ATb
-
据此定义空间 C(A) 上的投影:
P:Rnb⟶Rn⟼p
其中,rank(A)=n,使 ATA 可逆;x^=(ATA)−1ATb,p=Ax^=A(ATA)−1ATb。
故 P=A(ATA)−1AT,p=Pb。
-
若 rank(A)=n=m,则 A 可逆,x^=A−1b。
投影矩阵 Projection Matrix:
带权重的最小平方问题:
m 个方程的权重分别为 wi,E2=∑i=1mwi2(ai1x1+⋯+ainxn−bi)2。
把 wi 乘给 aij 和 bi 即可。设 m 阶对角方阵 W 为 Wii=wi,则:
(WA)T(WA)x^AT(WTW)x^=(WA)T(Wb)=ATWTWb
柯西-施瓦茨不等式的一个证明:
证明 (aTb)2≤∥a∥∥b∥:
∥b−p∥2=(b−p)T(b−p)=bTb−2pTb−pTp=∥b∥2−2(aaTaTb)aTb+aTa(aTb)2=∥b∥2−∥a∥2(aTb)2≥0
正交基 Orthogonal Basis
由单位向量组成的、两两正交的一组基称为规范正交基。
判断 q1,q2,⋯,qm∈Rn 是否是 Rn 的规范正交基:
正交矩阵 Orthogonal Matrix
性质:
优势:
-
b=∑xiqi=∑(qiTb)qi。
-
也就是说,若要求 b∈Rn 在 Qx=b 下的坐标 x 时:
x=Q−1b=QTb=⎣⎢⎢⎡q1Tb⋮qnTb⎦⎥⎥⎤
-
几何意义上,x 的每一项就是 b 在每一条直线上的投影。
∥b∥2=∑(qiTb)2。
结论:
- QT 也是正交矩阵。也就是说,Q 的每一行也两两正交。
格拉姆-施密特正交化 Gram-Schmidt
给出一组基 v1,v2,⋯,vn,按照如下步骤求其规范正交基:
-
q1=∥v1∥v1。
-
对于 2≤i≤n,我们将 vi 减去前面的 qj 上的投影 ∥qjTqj∥qjTviqj=(qjTvi)qj:
qi=∥∥∥∥vi−∑j=1i−1(qjTvi)qj∥∥∥∥vi−∑j=1i−1(qjTvi)qj=∥vi−pi∥vi−pi
其中:
pi=j=1∑i−1(qjTvi)qj=[q1⋯qi−1]⎣⎢⎢⎡q1Tvi⋮qi−1Tvi⎦⎥⎥⎤
设 Q=[q1⋯qi−1],则 pi 是 Qx=vi 的最小二乘解,即:
QTQpi=QTvi
QR 分解:
-
这对应着 A=[v1v2⋯vn] 的 QR 分解 A=QR,其中 Q 满足 QTQ=I,R 是对角线元素为正的 上三角矩阵:
A=[q1q2⋯qn]⎣⎢⎢⎢⎢⎡∥v1−p1∥q1Tv2∥v2−p2∥⋯⋯⋱q1Tvnq2Tvn⋮∥vn−pn∥⎦⎥⎥⎥⎥⎤
当 A 是方阵时,Q 是正交矩阵。
-
A 有 QR 分解,当且仅当 A 列满秩(rank(A)=n)。
应用:
最小二乘法 ATAx^=ATb 中的 A 如果有 QR 分解 A=QR,那么:
(QR)TQRx^RTQTQRx^RTRx^Rx^=(QR)Tb=RTQTb=RTQTb=QTb
一般化
定义广义的内积 ⟨∗,∗⟩ 是 v×v→R 的映射,满足:
-
双线性型:
⟨ax1+bx2,y⟩=a⟨x1,y⟩+b⟨x2,y⟩;
⟨x,cy1+dy2⟩=c⟨x,y1⟩+d⟨x,y2⟩。
-
对称性:⟨x,y⟩=⟨y,x⟩。
-
正定性:⟨x,x⟩≥0,当且仅当 x=0 时取等。
依此定义:
-
长度:∥v∥=⟨v,v⟩。
-
距离:∥u−v∥=⟨u−v,u−v⟩。
-
垂直:⟨u,v⟩=0。
-
角度:cosθ=∥u∥∥v∥⟨u,v⟩。需要证明 ∣cosθ∣≤1:
证明:由正定性,∀t∈R,⟨u+tv,u+tv⟩≥0。即:
===⟨u+tv,u+tv⟩⟨u,u+tv⟩+t⟨v,u+tv⟩⟨u,u⟩+t⟨u,v⟩+t⟨v,u⟩+t2⟨v,v⟩⟨u,u⟩+2t⟨u,v⟩+t2⟨v,v⟩≥0
根据二次函数 at2+bt+c≥0 的判别式 b2−4ac≤0,得:
(2⟨u,v⟩)2−4⟨u,u⟩⟨v,v⟩≤0
即:
⟨u,v⟩2≤⟨u,u⟩⟨v,v⟩=∥u∥∥v∥
应用:
- 求一低次函数,对一给定高次函数的最佳逼近,即求该高次函数在此低次函数空间上的投影。
Chapter 4.
行列式 Determinant
定义:
- n 阶方阵 A 可逆,当且仅当其行列式 det(A)=0。
几何意义:
性质:
-
det(I)=1。
-
若 A 中有两行相同,则 det(A)=0。
-
det(A) 线性依赖于每行。即:
a∣∣∣∣∣∣∣∣∣∣v1Tv2T⋮vnT∣∣∣∣∣∣∣∣∣∣+b∣∣∣∣∣∣∣∣∣∣w1Tv2T⋮vnT∣∣∣∣∣∣∣∣∣∣=∣∣∣∣∣∣∣∣∣∣av1T+bw1Tv2T⋮vnT∣∣∣∣∣∣∣∣∣∣
-
交换 A 中两行得 A′,则 det(A)=−det(A′)。
-
第三种初等行变换不改变行列式。即:
∣∣∣∣∣∣∣∣∣∣v1Tv2T⋮vnT∣∣∣∣∣∣∣∣∣∣=∣∣∣∣∣∣∣∣∣∣v1T+v2Tv2T⋮vnT∣∣∣∣∣∣∣∣∣∣
(以上三条性质告诉我们,初等行变换如何影响行列式)
-
若 A 有全零行,则 det(A)=0。
-
上三角矩阵 U 的 det(U) 等于主对角线元素的积。
-
A 奇异,等价于 det(A)=0。
A 可逆,等价于 det(A)=0。
-
det(AB)=det(A)det(B)。
- 推论:det(A)det(A−1)=1。
-
det(A)=det(AT)。
总结:
- 若 PA=LU,其中 P 是置换矩阵,则 det(A)=±det(L)det(U),符号取决于交换行的次数。
计算公式:
-
对于所有 1∼n 的排列 P,计算 n 阶方阵 A 的行列式为:
det(A)=P∑det(P)i=1∏nai,Pi
其中,det(P)=(−1)inv(P),inv(P) 是 P 的逆序对(Inversion)数。
-
删掉第 i 行和第 j 列后得到的 n−1 阶矩阵的行列式,称为余子式(Minor),Mij=det(rest of A)。加上符号,变成代数余子式(Cofactor),Cij=(−1)i+jMij。
按第 i 行展开(按列展开同理),得到 A 的行列式的递归公式为:
det(A)=j=1∑naijCij
应用:
-
求逆 A−1:设余子式矩阵为 C,则:
A−1=det(A)CT
-
克莱恩法则:解 Ax=b:
x=A−1b=det(A)CTb=det(A)1⎣⎢⎢⎢⎢⎡∑i=1nbi1Ci1∑i=1nbi2Ci2⋮∑i=1nbinCin⎦⎥⎥⎥⎥⎤
那么,xj 即 A 的第 j 列换作 b 后的行列式(设为 Bj),即:
xj=det(A)det(Bj)
-
计算主元:第 k 个主元 dk 可由前 k 阶顺序主子式确定:
dk=det(Ak−1)det(Ak)
计算方法:
-
消元。
-
大公式。
-
递归。
-
对于分块矩阵:
∣∣∣∣∣∣∣∣A1⋯⋱∗⋮An∣∣∣∣∣∣∣∣=C⋅∣∣∣∣∣∣∣∣U1⋯⋱∗⋮Un∣∣∣∣∣∣∣∣
其中,C 是把 A1,⋯,An 变成 U1,⋯,Un 的行列式系数之积。
-
A 可逆,∀α,β∈Rn,有:
∣∣∣A+αβT∣∣∣=∣A∣(1+βTA−1α)
证明:
∣∣∣∣∣AβT−α1∣∣∣∣∣=∣∣∣∣∣A+αβTβT01∣∣∣∣∣=∣A+αβT∣=∣∣∣∣∣AβT01+βTA−1α∣∣∣∣∣=∣A∣(1+βTA−1α)
-
应用:对于加扰动的秩一矩阵:
⎣⎢⎢⎢⎢⎡x1+mx1⋮x1x2x2+m⋮x2⋯⋯⋱⋯xnxn⋮xn+m⎦⎥⎥⎥⎥⎤=mI+⎣⎢⎢⎡1⋮1⎦⎥⎥⎤[x1⋯xn]
得:
∣A∣=mn(1+m∑xi)
或使用加边法:
⎣⎢⎢⎢⎢⎢⎢⎡100⋮0x1x1+mx1⋮x1x2x2x2+m⋮x2⋯⋯⋯⋱⋯xnxnxn⋮xn+m⎦⎥⎥⎥⎥⎥⎥⎤
向下消元再向左消元即可。
-
设 Am×n,Bn×m,则:
∣Im−AB∣=∣In−BA∣
证明:
∣∣∣∣∣ImBAIn∣∣∣∣∣=∣∣∣∣∣Im−AB0AIn∣∣∣∣∣=∣Im−AB∣=∣∣∣∣∣Im0AIn−BA∣∣∣∣∣=∣In−BA∣
范德蒙德矩阵 Vandermonde Matrix:
Δn(x1,x2,⋯,xn)=∣∣∣∣∣∣∣∣∣∣∣∣1x1x12⋮x1n−11x2x22⋮x2n−1⋯⋯⋯⋱⋯1xnxn2⋮xnn−1∣∣∣∣∣∣∣∣∣∣∣∣=i>j∏(xi−xj)
Chapter 5.
特征值和特征向量
称 p(A)=∣A−λI∣ 为 A 的特征多项式。
使特征方程 ∣A−λI∣=0 的 λ,称为 A 的特征值(Eigenvalue)。
满足 (A−λI)x=0 的 x,称为对应 λ 的特征向量(Eigenvector)。
迹 Trace:
定义 n 阶矩阵的迹为:
tr(A)=i=1∑naii
性质:
代数重数:λi 在特征方程中是几重根。
几何重数:dimN(A−λiI)。
可对角化 Diagonalizable
假设 n 阶方阵 A 有 n 组特征值和特征向量 Axi=λixi,设 S=[x1⋯xn],则:
S−1AS=Λ=⎣⎢⎡λ1⋱λn⎦⎥⎤
其中,称 S 为特征向量矩阵;称 Λ 为特征值矩阵。此时,A 可对角化。
n 阶方阵 A 可对角化的条件为:
- 充分条件:
- n 个特征值两两互异。(引理:特征值互异 ⇒ 对应的特征向量线性无关)
- 充要条件:
- n 个特征向量线性无关。
- 所有特征值,代数重数等于几何重数。
性质:
-
若 A 可对角化,则 Ak 可对角化,且二者特征向量矩阵相同。
-
两个可对角化 n 阶矩阵 A,B 有相同的特征向量矩阵,当且仅当 AB=BA。
差分方程:
设差分方程 un+1=Aun,其中 A 是 k 阶方阵且 A=SΛS−1,则 un 的通项为:
un=Anu0=An(c1x1+⋯+ckxk)=c1λ1nx1+⋯ckλknxk
因为 k 个特征向量线性无关,所以 un 一定可以表示为它们的线性组合。
称该差分方程:
马尔可夫矩阵 Markov Matrix:
每一列加起来都为 1 的方阵。
性质:
复数矩阵 Complex Matrix
复数 Complex:
-
共轭:a+ib=a−ib。∣z∣2=zz=a2+b2。
- z1z2=z1⋅z2。
-
极化:(a+ib)(c+id)=r(cosθ+isinθ)=reiθ。
称 θ 为辐角。
-
乘法:z1z2=r1r2ei(θ1+θ2)。
复向量空间:Cn。
设复向量 x 的共轭 x 是每一项都与之共轭的复向量,定义:
-
长度:∥x∥2=xTx=xHx。
-
内积:⟨x,y⟩=xTy=xHy。(Hermitian Inner Product)
垂直:⟨x,y⟩=0。
(注意,xHy=yHx)
设复数矩阵 A 的共轭 B 是每一项都与之共轭的复数矩阵,则:
共轭转置 Conjugate Transpose:
AH=AT=AT
性质:
- (AB)H=BHAH。
Hermitian Matrix
满足 AH=A 的矩阵。
性质:
谱分解定理 Spectral Theorem(实数版本):
-
若 A 是实对称矩阵(AT=A),则:
A=QΛQT=[x1⋯xn]⎣⎢⎡λ1⋱λn⎦⎥⎤⎣⎢⎡x1T⋯xnT⎦⎥⎤=λ1x1x1T+⋯+λnxnxnT
其中 Q 是正交矩阵(QT=Q−1)。或者说:Q−1AQ=Λ 是对角矩阵。
-
若 x1,⋯,xn 都是单位向量,那么 xixiT 是投影矩阵。即:A 可以被分解为 n 个投影矩阵的和。
-
把相同的特征值合并,得到:A=λ1P1+⋯+λkPk,其中 Pi 是 N(A−λiI) 的投影矩阵,且:
- ∀i=j,PiPj=0。
- P1+⋯+Pk=I。
Skew-Hermitian Matrix:
满足 AH=−A 的矩阵。
性质:
酉矩阵 Unitary Matrix
满足 UHU=I 的矩阵。
性质:
性质:
相似矩阵 Similar Matrix
若有可逆矩阵 M,使得 B=M−1AM,则称 A 和 B 相似。
特别地,A 可对角化时,A 与对角矩阵相似。
性质:
- A 和 B 有相同的特征值和特征方程。因此,tr(A)=tr(B),det(A)=det(B)。
对于线性变换:
T:Rnx⟶Rn⟼Ax
现有新坐标 y 满足 x=My,则:
T′:Rny⟶Rn⟼M−1Ax=M−1AMy
舒尔引理 Schur Lemma
任意复数矩阵 A 总是与一个上三角矩阵酉相似,即一定存在酉矩阵 U,使得 U−1AU 是上三角矩阵。
求 A 对应的酉矩阵 U:
这是一个递归的构造过程:
-
将 A 的特征向量进行格拉姆-施密特正交化,得到酉矩阵 U1=[u1⋯un]。计算:
A1=U1−1AU1=[λ10xTA′]
其中 A′ 是一个 (n−1) 阶的子矩阵,xT 是一个行向量。
-
递归处理子矩阵 A′:对 (n−1) 阶矩阵 A′ 递归应用此过程,找到一个 (n−1) 阶的酉矩阵 U2,使得 U2−1A′U2 是上三角矩阵。直到 n−1=1 时,A′ 本身就是上三角矩阵,Un−1=I。
-
倒序合并得到最终的 U:
U=U1[100TU2]
这个 U 就是所求的酉矩阵。可以验证 U 是酉矩阵,且 U−1AU 是上三角矩阵,且此上三角矩阵的对角线元素即为 A 的特征值。
谱分解定理 Spectral Theorem(虚数版本):
-
任意 Hermitian 矩阵 A,存在酉相似矩阵 U−1AU=Λ 是实对角矩阵。(因为 Hermitian 矩阵的特征值是实数)
-
定义正规矩阵(Normal Matrix)A 满足 AHA=AAH。显然 Hermitian 矩阵、Skew Hermitian 矩阵、酉矩阵都是正规矩阵。
若 A 是正规矩阵,则 A 存在酉相似矩阵 U−1AU=T 是对角矩阵。
定义约当块 J=⎣⎢⎢⎢⎢⎢⎡λ11λ21⋱⋱λn−11λn⎦⎥⎥⎥⎥⎥⎤。
定义约当标准型 J=⎣⎢⎡J1⋱Js⎦⎥⎤。
定理:如果 A 有至多 s 个线性无关的特征向量,那么 A 和有 s 个约当块的约当标准型相似。
Chapter 6.
正定 Positive Definite
对于齐次二次函数 f(x1,x2)=ax12+2bx1x2+cx22,其对称的系数矩阵为 A=[abbc](多变元类似)。那么,f(x)=xTAx。
配方 f=a(x1+abx2)2+aac−b2y2。f>0 即 ac−b2>0 且 a>0。此时,A 是正定矩阵。
实对称方阵 A 是正定的(记为 A>0),有如下等价命题:
-
xTAx>0。(正定的定义)
-
A 的所有特征值 λ>0。
-
A 的所有左上子矩阵 Ak 满足 det(Ak)>0。或称所有顺序主子式(Leading Pricipal Minor)Dk>0。
-
A 的所有主元 >0。
-
存在可逆矩阵 R,A=RTR。
-
作谱分解:A=QΛQT=(QΛQT)(QΛQT)=R2,这个 R=A 是正定的。
所以,R 有无穷多个,但是正定的 R 只有一个。
-
作 LDU 分解:
A=LDLT=(LD)(DLT)=RTR,这个 R 是上三角的。
所以,R 有无穷多个,但是上三角的 R 只有一个。
负定 Negative Definite
xTAx<0。记为 A<0。
若 A>0,则 −A<0。
等价命题:
- A 的所有左上子矩阵 Ak 满足 (−1)k∣Ak∣>0。
半正定 Semipositive Definite
xTAx≥0。记为 A≥0。
等价命题:
-
A 的所有特征值 λ≥0。
-
A 的所有主子式 Pk 满足 Pk≥0。
-
A 的所有主元 ≥0。
-
存在矩阵 R,A=RTR。
主子式 Principal Minor:删除 A 的某些行和相同号码的列后的矩阵的行列式,剩下的矩阵为 k 阶,称为 k 阶主子式。主子式有 2n−1 个。例如:
⎣⎢⎢⎢⎢⎢⎡a11∗a31a41∗∗∗∗∗∗a13∗a33a43∗a14∗a34a44∗∗∗∗∗∗⎦⎥⎥⎥⎥⎥⎤
半负定 Seminegative Definite
xTAx≤0。记为 A≤0。
若 A≥0,则 −A≤0。
等价命题:
- A 的所有主子式 Pk 满足 (−1)kPk≥0。
合同 / 相合 Congruence
将 f=xTAx 中的 x 用 x=Cy(C 可逆)替换,得到 f=yT(CTAC)y。令 B=CTAC,称 A 与 B 合同。
Sylvester’s Law of Inertia 惯性定律:
一种形式:
-
合同矩阵 A,B 拥有相同数量的正特征值 / 负特征值 / 零特征值。
-
定义正惯性指数(Positive Index of Inertia)p 为矩阵正特征值的数量。
定义负惯性指数(Positive Index of Inertia)q 为矩阵负特征值的数量。
显然,p+q=r。
定义符号差(Signature)为 p−q。
所以,p(A)=p(B),q(A)=q(B),rank(A)=rank(B)。
另一种形式:
二次超曲面分类
定义二次超曲面(Quadric Hypersurfaces)为 xTAx=1。
SVD 分解 Singular Value Decomposition
任意 m×n 矩阵 A 可以被分解为 A=UΣVT,其中 U 是 m×m 的正交矩阵,Σ 是 m×n 的广义对角矩阵,V 是 n×n 的正交矩阵。
(rank(A)=rank(AT)=rank(ATA)=rank(AAT))
-
U 的列向量是 AAT 的特征向量。
-
V 的列向量是 ATA 的特征向量。
-
Σ 的对角线上前 rank(A) 个元素是 A 的 rank(A) 个非零奇异值。后面的元素为 0。
A 的奇异值是 AAT 和 ATA 的非零特征值的平方根。
AAT=(UΣVT)(UΣVT)T=UΣVTVΣTUT=U(ΣΣT)UT
这是 AAT 的谱分解。
步骤:
-
求 ATA(或 AAT)的特征值,得到 A 的奇异值,得到 Σ。
-
求 ATA 的标准正交特征向量,得到 V。
-
i≤r 时,对于非零的奇异值 σi,对应的 U 的列向量 ui 为 ui=σiAvi。(因为 Avi=σiui)
i>r 时,剩下的 m−r 个列向量张成了 N(AT)。(因为 Avi=0,我们需要向量张成 C(A) 的补空间 N(AT))
性质:
推论: