Skip to content

Inner Product

内积可以引入一些直观的几何概念,例如向量的长度和两个向量之间的角度或距离。内积的一个主要目的是确定向量之间是否正交。

3.2.1 点积

我们可能已经熟悉了一种特殊类型的内积,\(\mathbb{R}^{n}\) 中的标量积/点积(scalar product/dot product)

\[ \boldsymbol{x}^\mathrm{T} \cdot \boldsymbol{y} := \sum_{i=1}^{n} x_i y_i \]

在这本书中,我们将把这种特殊的内积称为点积。但是,内积是具有特定性质的更一般的概念,我们现在将介绍这些概念。

3.2.2 一般内积

回想一下2.7节中的线性映射,我们可以重新排列与标量的相加和乘相相关的映射。而双线性映射(bilinear mapping)\(\Omega\) 是有两个参数的的映射, 且对于每个参数它都是线性的,即对于 \(\boldsymbol{x},\boldsymbol{y},\boldsymbol{z} \in \mathrm{V}\) 以及 \(\lambda, \psi \in \mathbb{R}\),以下成立:

\[ \begin{aligned} \Omega(\lambda \boldsymbol{x} + \psi \boldsymbol{y}, \boldsymbol{z}) = \lambda \Omega(\boldsymbol{x}, \boldsymbol{z}) + \psi \Omega(\boldsymbol{y}, \boldsymbol{z}) \\\\ \Omega(\boldsymbol{x}, \lambda \boldsymbol{y} + \psi \boldsymbol{z}) = \lambda \Omega(\boldsymbol{x}, \boldsymbol{y}) + \psi \Omega(\boldsymbol{x}, \boldsymbol{z}) \end{aligned} \]

这里,第一个式子表明 \(\Omega\) 关于第一个参数中是线性的,第二个式子表明 \(\Omega\) 关于第二个参数中是线性的。

定义 3.2

\(V\) 为向量空间,\(\Omega : \mathrm{V} \times \mathrm{V} \to \mathbb{R}\) 为双线性映射, 它取 \(\mathrm{V}\) 中的两个向量并将它们映射到一个实数,那么:

  • 对于所有 \(\boldsymbol{x}, \boldsymbol{y} \in \mathrm{V}\),如果 \(\Omega(\boldsymbol{x}, \boldsymbol{y}) = \Omega(\boldsymbol{y}, \boldsymbol{x})\), 则称 \(\Omega\) 为对称的(symmetric),即参数的顺序没有影响。

  • 如果对任意 \(\boldsymbol{x} \in \mathrm{V} \setminus \{0\}\),有 \(\Omega(\boldsymbol{x}, \boldsymbol{x}) > 0\), 且 \(\Omega(0, 0) = 0\), 则称 \(\Omega\) 为正定的(positive definite)。

定义 3.3

\(\mathrm{V}\) 为向量空间,\(\Omega : \mathrm{V} \times \mathrm{V} \to \mathbb{R}\) 为双线性映射, 它取 \(V\) 中的两个向量并将它们映射到一个实数,那么:

  • 一个正定且对称的双线性映射 \(\Omega : \mathrm{V} \times \mathrm{V} \to \mathbb{R}\) 称为 \(V\) 上的内积(inner product), 我们通常写成 \(\langle \boldsymbol{x}, \boldsymbol{y} \rangle\) 而不是 \(\Omega(\boldsymbol{x}, \boldsymbol{y})\)

  • \((\mathrm{V}, \langle \cdot, \cdot \rangle)\) 称为内积空间或带内积的(实)向量空间。 如果我们以点积为内积,则称 \((\mathrm{V}, \langle \cdot, \cdot \rangle)\) 为欧氏向量空间(Euclidean vector space)。

在本书中,我们将这些空间统称为内积空间。

例 3.3 非点积的内积

考虑 \(\mathrm{V} = \mathbb{R}^2\),我们定义

\[ \langle \boldsymbol{x}, \boldsymbol{y} \rangle := \mathrm{x_1 y_1 - (x_1 y_2 + x_2 y_1) + 2 x_2 y_2} \]

其中 \(\langle \cdot, \cdot \rangle\) 为非点积的内积。

3.2.3 对称正定矩阵

对称正定矩阵在机器学习中起着重要的作用,它们是通过内积定义的。 在 4.3 节矩阵分解中将涉及到对称正定矩阵。 对称半正定矩阵的思想也是机器学习中核技巧的关键(12.4 节)。

考虑一个 \(n\) 维向量空间 \(\mathrm{V}\) 及其内积\(\langle \cdot, \cdot \rangle : V \times V \to \mathbb{R}\)(见定义 3.3), 以及 \(\mathrm{V}\) 的有序基 \(\mathrm{B} = (\boldsymbol{b}_1, \ldots, \boldsymbol{b}_n)\)。 对于合适的 \(\psi_i, \lambda_j \in \mathbb{R}\), 任意向量 \(\boldsymbol{x}, \boldsymbol{y} \in \mathrm{V}\) 都可以写成基向量的线性组合: \(\boldsymbol{x} = \sum_{i=1}^n \psi_i b_i \in \mathrm{V}\)\(\boldsymbol{y} = \sum_{j=1}^n \lambda_j b_j \in \mathrm{V}\)。 由于内积的双线性,对于所有 \(\boldsymbol{x}, \boldsymbol{y} \in \mathrm{V}\),有:

\[ \begin{aligned} \langle \boldsymbol{x}, \boldsymbol{y} \rangle &= \left\langle \sum_{i=1}^n \psi_i \boldsymbol{b}_i,\; \sum_{j=1}^n \lambda_j \boldsymbol{b}_j \right\rangle \\ \\ &= \sum_{i=1}^n \sum_{j=1}^n \psi_i \langle \boldsymbol{b}_i, \boldsymbol{b}_j \rangle \lambda_j \\ \\ &= \hat{\boldsymbol{x}}^{\mathsf{T}} \boldsymbol{A} \hat{\boldsymbol{y}}. \end{aligned} \]

\(n = 2\) 为例,

\[ \begin{aligned} \left\langle \sum_{i=1}^2 \psi_i \boldsymbol{b}_i , \sum_{j=1}^2 \lambda_j \boldsymbol{b}_j \right\rangle &= \langle \psi_1 \boldsymbol{b}_1 + \psi_2 \boldsymbol{b}_2 , \lambda_1 \boldsymbol{b}_1 + \lambda_1 \boldsymbol{b}_2 \rangle = \psi_1 \langle \boldsymbol{b}_1,\; \lambda_1 \boldsymbol{b}_1 + \lambda_2 \boldsymbol{b}_2 \rangle + \psi_2 \langle \boldsymbol{b}_2,\; \lambda_1 \boldsymbol{b}_1 + \lambda_2 \boldsymbol{b}_2 \rangle \\ \\ &= \psi_1 \bigl[\lambda_1 \langle \boldsymbol{b}_1, \boldsymbol{b}_1 \rangle+ \lambda_2 \langle \boldsymbol{b}_1, \boldsymbol{b}_2 \rangle \bigr] + \psi_2 \bigl[\lambda_1 \langle \boldsymbol{b}_2, \boldsymbol{b}_1 \rangle + \lambda_2 \langle \boldsymbol{b}_2, \boldsymbol{b}_2 \rangle \bigr] \\ \\ &= \begin{bmatrix}\psi_1,\psi_2\end{bmatrix} \begin{bmatrix} \lambda_1 \langle \boldsymbol{b}_1,\boldsymbol{b}_1 \rangle + \lambda_2 \langle \boldsymbol{b}_1,\boldsymbol{b}_2 \rangle \\ \lambda_1 \langle \boldsymbol{b}_2,\boldsymbol{b}_1 \rangle + \lambda_2 \langle \boldsymbol{b}_2,\boldsymbol{b}_2 \rangle \end{bmatrix} \\ \\ &= \begin{bmatrix} \psi_1 & \psi_2 \end{bmatrix} \begin{bmatrix} \langle \boldsymbol{b}_1, \boldsymbol{b}_1 \rangle & \langle \boldsymbol{b}_1, \boldsymbol{b}_2 \rangle \\ \langle \boldsymbol{b}_2, \boldsymbol{b}_1 \rangle & \langle \boldsymbol{b}_2, \boldsymbol{b}_2 \rangle \end{bmatrix} \begin{bmatrix} \lambda_1 \\ \lambda_2 \end{bmatrix} \end{aligned} \]

其中 \(A_{ij} := \langle b_i, b_j \rangle\)\(\hat{\boldsymbol{x}}, \hat{\boldsymbol{y}}\)\(\boldsymbol{x}\)\(\boldsymbol{y}\) 相对于基 \(\boldsymbol{B}\) 的坐标。 这意味着 \(\langle \cdot, \cdot \rangle\) 是由 \(\boldsymbol{A}\) 唯一确定的。 由于内积是对称的,所以 \(A\) 是对称的。 此外,内积的正定性意味着

\[ \forall \boldsymbol{x} \in \mathrm{V} \setminus \{0\}:\quad \boldsymbol{x}^{\mathsf T} \boldsymbol{A} \boldsymbol{x} > 0 . \]

定义 3.4 对称正定矩阵

考虑矩阵

\[ \boldsymbol{A}_1 = \begin{bmatrix} 9 & 6 \\ 6 & 5 \end{bmatrix},\quad \boldsymbol{A}_2 = \begin{bmatrix} 9 & 6 \\ 6 & 3 \end{bmatrix} \]

\(\boldsymbol{A}_1\) 为正定的,因为对于任意 \(x \in V \setminus \{0\}\),它是对称的且

\[ \begin{aligned} \boldsymbol{x}^{\mathsf T} A_1 \boldsymbol{x} &= \begin{bmatrix} x_1 & x_2 \end{bmatrix} \begin{bmatrix} 9 & 6 \\ 6 & 5 \end{bmatrix} \begin{bmatrix} x_1 \\ x_2 \end{bmatrix} \\ \\ &= 9 x_1^2 + 12 x_1 x_2 + 5 x_2^2 \\ \\ &= (3 x_1 + 2 x_2)^2 + x_2^2 > 0 \end{aligned} \]

\(\boldsymbol{A}_2\) 仅仅是对称的,它不是正定的,因为 \(\boldsymbol{x}^{\mathsf T} A_2 \boldsymbol{x} = 9 x_1^2 + 12 x_1 x_2 + 3 x_2^2 = (3 x_1 + 2 x_2)^2 - x_2^2\) 可能小于 \(0\),例如当 \(\boldsymbol{x} = [\,2,\,-3\,]^{\mathsf T}\) 时。

如果 \(\boldsymbol{A} \in \mathbb{R}^{n \times n}\) 是对称且正定的, 那么

\[ \langle \boldsymbol{x}, \boldsymbol{y} \rangle = \hat{\boldsymbol{x}}^{\mathsf T} \boldsymbol{A} \hat{\boldsymbol{y}}. \]

定义 \(\mathrm{V}\) 关于有序基 \(\mathrm{B}\) 的内积, 其中 \(\hat{\boldsymbol{x}}\)\(\hat{\boldsymbol{y}}\)\(\boldsymbol{x}\)\(\boldsymbol{y}\) 相对于基 \(\mathrm{B}\) 的坐标。

定理 3.5 对于一个实值,有限维向量空间\(\mathrm{V}\)\(\mathrm{V}\)的一个有序基\(\mathrm{B}\)\(\langle \cdot, \cdot \rangle : \mathrm{V} \cdot \mathrm{V} \rightarrow \mathbb{R}\) 为一个内积 当且仅当存在一个对称的,正定矩阵 \(\boldsymbol{A} \in \mathbb{R}^{n \times n}\) 使得

\[ \begin{aligned} \langle \boldsymbol{x},\boldsymbol{y} \rangle = \hat{\boldsymbol{x}}^{\mathrm{T}} \boldsymbol{A} \hat{\boldsymbol{y}} \end{aligned} \]

如果 \(\boldsymbol{A} \in \mathbb{R}^{n \times n}\) 是对称且正定的,那么它有以下属性:

  • \(\boldsymbol{A}\) 的零空间(核)只能由 \(\boldsymbol{0}\) 组成,因为对于所有 \(\boldsymbol{x} \neq \boldsymbol{0}, \boldsymbol{x}^{\mathrm{T}} \boldsymbol{A} \boldsymbol{x} \gt \boldsymbol{0}\), 这意味着如果 \(\boldsymbol{x} \neq \boldsymbol{0}\) 那么 \(\boldsymbol{A}\boldsymbol{x} \neq \boldsymbol{0}\)
  • \(\boldsymbol{A}\) 的对角元素 \(\mathrm{a}_\mathrm{ii}\) 是正的, 因为\(\mathrm{a}_\mathrm{ii} = \boldsymbol{e}_i^{\mathrm{T}} \boldsymbol{A} \boldsymbol{e}_i\) 其中 \(\boldsymbol{e}_i\)\(\mathbb{R}^{n}\)标准基的第\(i\)个向量