Inner Product
内积可以引入一些直观的几何概念,例如向量的长度和两个向量之间的角度或距离。内积的一个主要目的是确定向量之间是否正交。
3.2.1 点积
我们可能已经熟悉了一种特殊类型的内积,\(\mathbb{R}^{n}\) 中的标量积/点积(scalar product/dot product)
在这本书中,我们将把这种特殊的内积称为点积。但是,内积是具有特定性质的更一般的概念,我们现在将介绍这些概念。
3.2.2 一般内积
回想一下2.7节中的线性映射,我们可以重新排列与标量的相加和乘相相关的映射。而双线性映射(bilinear mapping)\(\Omega\) 是有两个参数的的映射, 且对于每个参数它都是线性的,即对于 \(\boldsymbol{x},\boldsymbol{y},\boldsymbol{z} \in \mathrm{V}\) 以及 \(\lambda, \psi \in \mathbb{R}\),以下成立:
这里,第一个式子表明 \(\Omega\) 关于第一个参数中是线性的,第二个式子表明 \(\Omega\) 关于第二个参数中是线性的。
定义 3.2
令 \(V\) 为向量空间,\(\Omega : \mathrm{V} \times \mathrm{V} \to \mathbb{R}\) 为双线性映射, 它取 \(\mathrm{V}\) 中的两个向量并将它们映射到一个实数,那么:
-
对于所有 \(\boldsymbol{x}, \boldsymbol{y} \in \mathrm{V}\),如果 \(\Omega(\boldsymbol{x}, \boldsymbol{y}) = \Omega(\boldsymbol{y}, \boldsymbol{x})\), 则称 \(\Omega\) 为对称的(symmetric),即参数的顺序没有影响。
-
如果对任意 \(\boldsymbol{x} \in \mathrm{V} \setminus \{0\}\),有 \(\Omega(\boldsymbol{x}, \boldsymbol{x}) > 0\), 且 \(\Omega(0, 0) = 0\), 则称 \(\Omega\) 为正定的(positive definite)。
定义 3.3
设 \(\mathrm{V}\) 为向量空间,\(\Omega : \mathrm{V} \times \mathrm{V} \to \mathbb{R}\) 为双线性映射, 它取 \(V\) 中的两个向量并将它们映射到一个实数,那么:
-
一个正定且对称的双线性映射 \(\Omega : \mathrm{V} \times \mathrm{V} \to \mathbb{R}\) 称为 \(V\) 上的内积(inner product), 我们通常写成 \(\langle \boldsymbol{x}, \boldsymbol{y} \rangle\) 而不是 \(\Omega(\boldsymbol{x}, \boldsymbol{y})\)。
-
\((\mathrm{V}, \langle \cdot, \cdot \rangle)\) 称为内积空间或带内积的(实)向量空间。 如果我们以点积为内积,则称 \((\mathrm{V}, \langle \cdot, \cdot \rangle)\) 为欧氏向量空间(Euclidean vector space)。
在本书中,我们将这些空间统称为内积空间。
例 3.3 非点积的内积
考虑 \(\mathrm{V} = \mathbb{R}^2\),我们定义
其中 \(\langle \cdot, \cdot \rangle\) 为非点积的内积。
3.2.3 对称正定矩阵
对称正定矩阵在机器学习中起着重要的作用,它们是通过内积定义的。 在 4.3 节矩阵分解中将涉及到对称正定矩阵。 对称半正定矩阵的思想也是机器学习中核技巧的关键(12.4 节)。
考虑一个 \(n\) 维向量空间 \(\mathrm{V}\) 及其内积\(\langle \cdot, \cdot \rangle : V \times V \to \mathbb{R}\)(见定义 3.3), 以及 \(\mathrm{V}\) 的有序基 \(\mathrm{B} = (\boldsymbol{b}_1, \ldots, \boldsymbol{b}_n)\)。 对于合适的 \(\psi_i, \lambda_j \in \mathbb{R}\), 任意向量 \(\boldsymbol{x}, \boldsymbol{y} \in \mathrm{V}\) 都可以写成基向量的线性组合: \(\boldsymbol{x} = \sum_{i=1}^n \psi_i b_i \in \mathrm{V}\), \(\boldsymbol{y} = \sum_{j=1}^n \lambda_j b_j \in \mathrm{V}\)。 由于内积的双线性,对于所有 \(\boldsymbol{x}, \boldsymbol{y} \in \mathrm{V}\),有:
以 \(n = 2\) 为例,
其中 \(A_{ij} := \langle b_i, b_j \rangle\), \(\hat{\boldsymbol{x}}, \hat{\boldsymbol{y}}\) 为 \(\boldsymbol{x}\) 和 \(\boldsymbol{y}\) 相对于基 \(\boldsymbol{B}\) 的坐标。 这意味着 \(\langle \cdot, \cdot \rangle\) 是由 \(\boldsymbol{A}\) 唯一确定的。 由于内积是对称的,所以 \(A\) 是对称的。 此外,内积的正定性意味着
定义 3.4 对称正定矩阵
考虑矩阵
\(\boldsymbol{A}_1\) 为正定的,因为对于任意 \(x \in V \setminus \{0\}\),它是对称的且
而 \(\boldsymbol{A}_2\) 仅仅是对称的,它不是正定的,因为 \(\boldsymbol{x}^{\mathsf T} A_2 \boldsymbol{x} = 9 x_1^2 + 12 x_1 x_2 + 3 x_2^2 = (3 x_1 + 2 x_2)^2 - x_2^2\) 可能小于 \(0\),例如当 \(\boldsymbol{x} = [\,2,\,-3\,]^{\mathsf T}\) 时。
如果 \(\boldsymbol{A} \in \mathbb{R}^{n \times n}\) 是对称且正定的, 那么
定义 \(\mathrm{V}\) 关于有序基 \(\mathrm{B}\) 的内积, 其中 \(\hat{\boldsymbol{x}}\)、\(\hat{\boldsymbol{y}}\) 为 \(\boldsymbol{x}\)、\(\boldsymbol{y}\) 相对于基 \(\mathrm{B}\) 的坐标。
定理 3.5 对于一个实值,有限维向量空间\(\mathrm{V}\)和\(\mathrm{V}\)的一个有序基\(\mathrm{B}\),\(\langle \cdot, \cdot \rangle : \mathrm{V} \cdot \mathrm{V} \rightarrow \mathbb{R}\) 为一个内积 当且仅当存在一个对称的,正定矩阵 \(\boldsymbol{A} \in \mathbb{R}^{n \times n}\) 使得
如果 \(\boldsymbol{A} \in \mathbb{R}^{n \times n}\) 是对称且正定的,那么它有以下属性:
- \(\boldsymbol{A}\) 的零空间(核)只能由 \(\boldsymbol{0}\) 组成,因为对于所有 \(\boldsymbol{x} \neq \boldsymbol{0}, \boldsymbol{x}^{\mathrm{T}} \boldsymbol{A} \boldsymbol{x} \gt \boldsymbol{0}\), 这意味着如果 \(\boldsymbol{x} \neq \boldsymbol{0}\) 那么 \(\boldsymbol{A}\boldsymbol{x} \neq \boldsymbol{0}\)
- \(\boldsymbol{A}\) 的对角元素 \(\mathrm{a}_\mathrm{ii}\) 是正的, 因为\(\mathrm{a}_\mathrm{ii} = \boldsymbol{e}_i^{\mathrm{T}} \boldsymbol{A} \boldsymbol{e}_i\) 其中 \(\boldsymbol{e}_i\)为\(\mathbb{R}^{n}\)标准基的第\(i\)个向量