《线性代数的本质》笔记


线性代数的本质

> 曾经一位好友推荐给我的一部理解线性代数几何意义的视频,其实也算网课了。两年前初学的线性代数,大概一年前看的这部视频,觉得以前学得大多是白学,最近在学习机器学习相关的知识,感觉经常会用到,特此整理一下。3Blue1Brown相关的系列还有很多,以后慢慢学。

链接

bilibili

序言

> 数值水平和几何水平上理解线性代数有着根本性的差异。
  • 几何水平上的理解能够让你判断出解决特定问题需要时很么样的工具。感受到它们为什么有用,以及如何解读最终结果。
  • 数值水平上的理解则能让你顺利应用这些工具。


向量究竟是什么

> 引入一些数作为坐标是一种鲁莽的行为。——赫尔曼·外尔
  • 从物理专业学生的视角看,向量是空间中的箭头,决定一个向量的是它的长度和它所指的方向。但只要这两个特征相同,你可以自由移动这个向量。
  • 从计算机专业学生视角看,一个数字列表。
  • 从数学专业学生的视角看,只要保证两个向量相加以及数组与向量相乘是有意义的即可。即加法和数乘始终贯穿线性代数。


一旦理解了“向量是空间中的箭头”这种观点。你如何从原点(向量起点)出发到它的尖端(向量终点)。惯用方法是,把数字竖着写。然后用方括号括起来。(向量加法中,三角形法则,是唯一允许向量离开原点的情况。)

可以把向量看成一种特定的运动。可以重新编排它们的顺序,使得我们先完成所有水平运动,再完成所有竖直运动。

运算

  • 向量加法是把对应项相加。
  • 向量数乘是把向量伸缩。常数用来缩放向量。(自始至终,数字在线性代数中主要作用就是缩放向量。)


实际上,无论怎么看待向量都无所谓,或者把向量看作空间中的箭头,而是更多地体现它能够在这些观点中的相互转化。

线性组合、张成的空间与基

> 数学需要的不是天赋,而是少量的自由想象,但想想太过自由又会陷入疯狂。——安古斯·罗杰斯

向量:把每个坐标看做标量。

每个标量都是各自坐标轴上的伸缩量。

坐标系的基:基向量就是这些标量缩放的对象。
  • \(X\) 轴的 \(i - hat\) 向量。
  • \(Y\) 轴的 \(j - hat\) 向量。
  • \(Z\) 轴的 \(k - hat\) 向量。


缩放向量并且相加:把每个方向伸缩之后,再相加,则表达了最初的那个向量。

我们完全可以选择不同的基。每当我们用数字描述向量时,它都依赖于我们正在使用的基。

如果固定其中一个标量,让另一个变量自由变化。所产生的向量的终点会描绘出一条直线。但是,当两个初始向量共线时,所产生的向量的终点被限制在一条过原点的直线上。

所有可以表示为给定向量线性组合的向量的集合,被称为给定向量张成的空间。

实际上,不必考虑所有的箭头,只需要考虑无限大的二维平面本身即可。
  • 当你只考虑一个向量时,就把它看做箭头。
  • 当你考虑多个向量时,就把它们都看做点。


让常数变化,就形成了向量组所张成的空间。

在线性组合中引入第三个向量并没有让你“走的更远”,即向量组中至少有一个是多余的,没有对张成的空间做出任何贡献。你有多个向量,并且可以移除其中一个而不减小张成的空间,当这种情况发生时,我们称它们是“线性相关”的。

另一种标书方法是其中一个向量,可以表示为其他向量的线性组合,因为这个向量已经落在其他向量所张成的空间之中。

另一方面,如果所有向量都给张成的空间增添了新的维度。它们就被称为是“线性无关”的。

空间的一组的严格定义是:张成该空间的一个线性无关向量的集合。

矩阵与线性变换

> 很遗憾,矩阵是什么说不清的。你必须自己亲眼看看。——墨菲斯

变换”本质上是“函数”的一种花哨的说法。输入输入都是向量。“变换”这个词,暗示我们用“运动”去思考。

如果一个变换接收一个向量并输出一个向量,我们想象这个输入向量移动到输出向量的位置。以此类推,每一个输入向量都移动到对应的输出向量的位置。很多个向量的时候,把每一个向量看做它的终点,而不是一个箭头。

线性变化的性质

  • 原点固定。
  • 保持网格线平行且等距分布。


如何用数值描述?

实际上,只需要记录 \(i\) 和 \(j\) 变换后的位置。其他向量都会随之而动。
  • \(V = -1 \ast i + 2 \ast j\)
  • \(Transformed\ \ V = -1 \ast (Transformed\ \ i) + 2 \ast (Transformed\ \ j)\)


可以把它的列理解为两个特殊的向量,即变换后的 \(i\) 和 \(j\)。就组合成一个矩阵。

我们描述一个向量,需要依赖于,还有在这个基上的坐标。对于线性变换,是一个向量的变换,可以理解成:基的变换,坐标不变。

矩阵乘法与线性变换复合

> 据我的经验,如果丢掉矩阵的话,那些设计矩阵的证明可以缩短一半。——埃米尔·阿廷

严格意义上说,线性变换是将向量作为输入和输出的一类函数。

两个矩阵相乘有着几何意义,也就是两个线性变换相继作用。但是,需要从右往左读。起源于函数的符号。\(f(g(x))\)。从右往左。比如:“首先旋转,然后剪切”。新的矩阵捕捉到了旋转然后剪切的总体效应。

这个新的线性变换通常被称为前两个独立变换的“符合变换”。
  • \(AB \neq BA\)
  • \((AB)C = A(BC)\)


附注1—三维空间中的线性变换

实际上只是用来代表以它本身为终点的一个向量。

三维线性变换由基向量的去向完全决定。

它的每个坐标,都可以看做是对基向量的缩放。

行列式

> 计算的目的不在于数字本身,而在于洞察其背后的意义。——理查德·哈明
  • 线性变换,有些将空间向外拉伸,有的则想空间内挤压。
  • 行列式,就是测量变换究竟对空间有多少拉伸或挤压。


基向量所形成的平行四边形或者平行六面体的体积。则为行列式的绝对值(即对空间的缩放比例,相对于直角坐标系时的基向量)。如果一个行列式是 \(0\),说明它将整个平面压缩到一条直线,甚至是一个点。 所以,只要检测矩阵的行列式是否为 \(0\),我们就能了解这个矩阵所代表的变换是否将空间压缩到更小的维度上了。

符号:可能出现负值。线性变换在这个平面上翻转了。

如果二维平面是一张纸,则这个变换就是将纸翻转到了另一面。比如用 \(i-hat\) 和 \(j-hat\) 来考虑。
最初,\(j-hat\) 在 \(i-hat\) 的左边。如果变换之后,\(j-hat\) 在 \(i-hat\) 的右边,那么空间定向就发生了改变。则此时,行列式的值为负。

好比是余弦函数。随着 \(i-hat\) 与 \(j-hat\) 靠近,行列式的值慢慢变小,然后变为负数。

三维的情况

判断方向,右手定则。

$${det(A \ast B) = det(A) \ast det(B)}$$

逆矩阵、列空间与零空间

> 提出正确的问题比回答它更困难。——格奥尔格·康托尔

线性方程组:将未知数组成的向量,透过系数矩阵,线性变换,得到了等号右边的常数组成的向量。

$${AX = b}$$

逆向线性变换时,实际上也对应了另一个线性变换,回到原始状态。\(A \times A^{-1}\) 等于一个“什么都不做”的矩阵。恒等变换。

\(X = b \times A^{-1}\),当 \(det(A) = 0\) 与当 \(det(A) \neq 0\) 时,情况会不同。如果方程组相关的变换将空间压缩到更低的维度上(即 \(det(A) = 0\)),此时没有逆变换。即便不存在逆变换,但是解仍然存在。

比如,一个变换,将空间压缩为一条直线。当变换的结果为一条直线时,也就是说结果是一维的。则称这个变换的秩为 \(1\)。如果变换后的向量落在某个二维平面上,我们称这个变换的秩为 \(2\)。

所以,,代表变换后空间的维数。秩更精确的定义是列空间的维数。 如果 \(rank < n\),则表明空间被压缩了。当秩达到最大时,意味着秩与列数相等。称之为“满秩”。

不管是一条直线,一个平面还是三维空间等,所有可能的变换结果的集合被称为矩阵的“列空间”。

矩阵的列告诉你基向量变换后的位置。

关于原点:零向量一定会包含在列空间中。因为线性变换必须保持原点位置不变。但是,对于一个非满秩矩阵来说,它将空间压缩到一个更低的维度上。也就是说,有一系列向量变换后称为零向量。

变换后落在原点的向量集合,被称为矩阵的“零空间”或“核”。零空间给出的就是这个方程所有可能的解。

附注2-非方阵

讨论不同维数之间的变换是完全合理的。

值得强调的一点:输入的二维向量与输出的三维向量是完全不同的“物种”。

把变换后的基向量坐标作为矩阵的列。

列张成的空间:列空间。

\(3 \times 2\) 的矩阵,是三维空间中一个过原点的二维平面。

但是这个 \(3 \times 2\) 的矩阵仍然是满秩的。

因为列空间的维数与输入空间的维数相等。

集合意义:将二维空间映射到三维空间。

因为矩阵有两列表示输入空间有两个基向量。

有三行表明每一个基向量在变换后都用三个独立的坐标来描述。

又比如:

\(2 \times 3\) 的矩阵。

\(3\) 列表示原始空间有 \(3\) 个基向量,也就是说原始空间是三维的。

有两行表示,这三个基向量在变换后都仅用两个坐标来表示。

所以,它们一定落在二维空间中。

因此是从三维空间到二维空间的映射。

点积与对偶性

> 满意的答案来自对偶性

点积:两个维数相同的向量,对应相乘要相加。比如 \(v \cdot w\) 想象将向量 \(w\) 朝着过原点和向量 \(v\) 终点的直线上投影。将投影的长度与向量 \(v\) 的长度相乘,就得到了点积。当 \(w\) 的投影与 \(v\) 的方向相反,则点积为负数。如果垂直,则点积为零。

根据对称性:将 \(v\) 向 \(w\) 上投影,并将 \(v\) 的投影长度与 \(w\) 的长度相乘为镜像。

线性变换:
  • \(L(v + w) = L(v) + L(w)\)
  • \(L(c \ast v) = c \ast L(v)\)
  • \(v,\ w\) 为向量,\(c\) 为常数。


\(v,\ w\) 都是列向量。\(v \cdot w\),将向量 \(v\) 倒放,从而得到与之相关的矩阵。

这个 \(1 \times n\) 的 \(n\) 维行向量,则代表一个投影。\(n\) 维到 \(1\) 维的投影。每一列都是对应基向量(\(i-hat\) , \(j-hat\) , \(k-hat\))坐标变换后的位置。

只是通过将空间投影到给定数轴上来定义的。

两个向量点乘,就是将其中一个向量转换为线性变换。把它看做线性变换的物质载体,会更容易理解向量。

叉积的标准介绍

> 每一个维度都很特别。——杰弗里·拉加里亚斯

两个向量 \(v\) 和 \(w\),考虑它们所张成的平行四边形。

\(v \times w\) :如果 \(v\) 在 \(w\) 的右侧,结果为正,\(v\) 在 \(w\) 的右侧,结果为负。

顺序会对叉积有影响。

当你按序求两个基向量的叉积,即 \(i-hat \times j-hat = + 1 \ v \times w\) :将 \(v\) 的坐标作为矩阵的第一列,\(w\) 的坐标作为矩阵的第二列。
计算行列式的值。

真正的叉积是通过两个三维向量生成一个新的三维向量。

叉积的结果不是一个数,而是一个向量。

这个向量的方向与平行四边形所在的面垂直。

根据右手定则,大拇指的方向为叉积的方向。

第一列是基向量 \(i-hat\),\(j-hat\) 和 \(k-hat\)。

以线性变换的眼光看叉积

> 从他(格罗腾迪克)和他的作为中,我还学到一点:不以高难度的证明为傲,因为难度高意味着我们还不理解。理想的情况是能够绘出一幅美景,而其中的证明显而易见。 ——皮埃尔·德利涅

应用线性变换和这个向量点乘等价。

根据 \(v\) 和 \(w\) 定义一个三维到一维的线性变换,找打它的对偶向量,说明这个对偶向量就是 \(v \times w\)。

(混合积的概念)

把 \(i-hat\)、\(j-hat\) 和 \(k-hat\) 放进矩阵的第一列进行计算,然后合并各项前面的系数。

在矩阵中插入 \(i-hat\)、\(j-hat\) 和 \(k-hat\) 不过是在传递一个信号。告诉我们应该把这些系数解读为一个向量的坐标。

所以在计算叉积时,引入 \(i-hat\)、 \(j-hat\) 和 \(k-hat\),面积为 \(v\) 和 \(w\) 所构成的平行四边形的面积乘以垂直于 \(v\) 和 \(w\) 方向的长度为一所构成的体积相同。

基变换

> 数学是一门赋予不同事物相同名称的艺术——昂利·庞加莱

将坐标看成标量。将第一个坐标看做缩放 \(i-hat\) 的标量。

比如,我们描述一个向量,总有参考,这个参考叫做基向量。\(i-hat\) 、 \(j-hat\) 和 \(k-hat\) 称为这个标准坐标系的基向量。
  • 如何在不同的坐标系中进行转化?
  • 如果从对方的坐标系中转换到我们的坐标系中?


用我们的坐标来描述的对方的基向量的矩阵乘以对方的坐标,得到我们基向量下的坐标。

比如:\(BX = EC\),在 \(B\) 为基的情况下,坐标为 \(X\),与在 \(E\) 为基的情况下,坐标为 \(C\) 。相当于,声明一个命名空间

因此,表达式 \(A^{-1} \ast M \ast A\) 按时了一种数学上的转移作用。中间的矩阵 \(M\) 表达了你所见的变换。外侧两个矩阵代表转移作用,也就是视角上的转化。矩阵成绩仍然代表同一个变换,只是从不同的角度来看。

特征向量与特征值

> “上一次演讲中我问道:’数学对你来说意味着什么?’有些人回答:’处理数字,处理结构。’那么如果我问音乐对你来说意味着什么,你会回答‘处理音符’么?”——塞尔日·兰

$${AX = \lambda X}$$

\(A\) 为常数,\(X\) 为一个向量,\(\lambda\) 是一个常数。特征值。一个向量 \(X\),经过线性变化 \(A\) 作用后,得到另一个向量 \(\lambda X\),与向量 \(X\) 共线。(有一些向量留在了它们张成的空间。)

这些特殊向量就被称为变换的“特征向量”。

每个特征值都有一个所属的值,称为“特征值”。(即衡量特征向量在变换中拉伸或压缩比例的因子。)

重点在于,它停留在了它张成的直线上,并未发生旋转。

比如在一个里立体空间中,这个旋转的特征向量,就是旋转轴。(这种情况下,特征值必须为 \(1\) 。因为旋转没有缩放任何一个向量。)把一个三维玄幻饶某个轴旋转一定角度,要比考虑 \(3 \times 3\) 矩阵要直观的多。

则计算 \((A- \lambda E)X = 0\) 的非零解。

当且进当矩阵代表的变换将空间压缩到更低的维度时,才会存在一个非零向量,是的矩阵和它的乘积为零。

与虚数 \(i\) 相乘在复平面中表现为 \(90\) 度旋转和 \(i\) 是这个二维实向量旋转变换的特征值有所关联。

特征值出现复数的情况,一般对应于变换中的某种旋转。

可能会出现只有一个特征值,但特征向量不止在一条直线上的情况。

除了对角元以外的其他元素均为 \(0\) 的矩阵被称为对角矩阵,这非常合理。解读的方法是,所有的基向量都是特征向量。其中一个重要的方面是,矩阵与自己多次相乘的结果更容易计算。

比如,尝试计算一个非对角矩阵的 \(n\) 次幂。你可以先变换你的坐标系,使得这些特征向量就是基向量,然后将坐标作为矩阵的列,这个矩阵就是基变换矩阵。然后在最左侧写下基变换矩阵的逆。

不过是从新基向量所构成的坐标系角度来看的。这个矩阵必然是对角的,并且对角元为对应的特征值。这是应为,它所处的基向量在变换中,只进行了缩放。

一组基向量(同样是特征向量)构成的集合被称为一组“特征基”。

先变换到特征基,在新的基下,进行坐标的基坐标的伸缩,然后再转换回标准标准坐标系。

抽象向量空间

> 这些公理,同其他动机不明的定义一起,让门外汉难以掌握数学。它们主要通过这样的方式协助数学家,从而提升数学的权威性。——弗拉基米尔·阿诺尔德

多种可能的坐标系。

从微积分中可以找到一个常见的例子——导数。

有时,你听到是“算子”而不是“变换”。

一个函数变换是线性的,满足一下两个条件:
  • Additivity:\(L(v + w) = L(v) + L(w)\)
  • Scaling:\(L(c \ast v) = c \ast L(v)\)


线性变换是保持向量加法运算和数乘运算。

由于求导具有可加性和成比例性。我们用矩阵来描述求导,对于多项式:Polynomials。

首先,我们要做的是给这个空间赋予坐标的含义,这需要选取一个基。因为多项式已经是数乘 \(\times\) 的不同次幂再相加和的形式。所以,我们很自然地就取x的不同次幂作为基函数。但是,因为多项式的次数可以任意高,所以这个基函数集也是无穷大的。不过没有关系,这只是说明我们把多项式当向量来处理。

乍一看,矩阵向量乘法和求导像是毫不相干的。
  • 线性变换——线性算子
  • 点积——内积
  • 特征向量——特征函数


在线性代数的现代理论中,这些公理并非基础的自然法则,它们是一个媒介。一边连接着你,也就是发现这些结论的数学家,另一边连接着其他人,也就是想要把这些结论应用于新的向量空间的人。

只要这些人的定义满足这些公理,他们就能顺利地应用你的结论。

向量的形式并不重要,箭头、一组数、函数、π生物等等都不所谓。它可以是任何东西。

学到了线性代数知识,知道了这些概念有更广泛的应用。如果你具备了正确的直观,你会在以后的学习中更加高效。

0 个评论

要回复文章请先登录注册

返回顶部