norms

范数包括向量范数和矩阵范数,

  1. 向量范数表征向量空间中向量的大小。
  2. 矩阵范数表征矩阵引起变化的大小。

可以把范数当作距离来理解,向量x的范数即从原点到点x的距离。

任意满足以下性质的函数都是norm。(将向量映射到非负值)

  • $f(x)=0 \Rightarrow x = 0$
  • $f(x+y) \le f(x) + f(y)$ (the triangle inequality)
  • $\forall \alpha \in \mathbb{R},f(\alpha x) = |\alpha|f(x)$

$L^p$ norm

对应闵可夫斯基距离(Minkowski Distance)。定义了一组范数。
\begin{equation}
||x||= (\sum_i |x_i|^p)^\frac{1}{p}
\end{equation}

“aaaa”
上图表示了p从无穷到0变化时,三维空间中到原点的距离(范数)为1的点构成的图形的变化情况。

  1. $p=0$ 即L0范数:度量向量中非零元素的个数。不是一个真正的范数。
  2. $0 \le p < 1$时,$L^p$不满足三角不等式。(有些书籍中规定$p \ge 1$)
  3. $p=1$ 即L1范数:$||x||$ 为x向量各个元素绝对值之和。 对应曼哈顿距离
  4. $p=2$ 即L2范数:$||x||$为x向量各个元素平方和的1/2次方。对应欧氏距离
  5. $p \to \infty$ 即$L^\infty$范数:$||x||$为x向量各个元素绝对值最大那个元素的绝对值,对应切比雪夫距离

L0范数

度量向量中非零元素的个数,在实际情况中,L0的最优问题会被放宽到L1或L2下的最优化。(L1范数是L0范数的最优凸近似?)

L1范数

向量x中非零元素的绝对值之和。也叫曼哈顿距离、最小绝对误差等。

\begin{equation}
||x||_1= \sum_i |x_i|
\end{equation}

使用L1范数可以度量两个向量间的差异,如绝对误差和(Sum of Absolute Difference):

\begin{equation}
SAD(x_1,x_2)= \sum_i |x_{1i}-x_{2i}|
\end{equation}

L1范数也被叫做稀疏规则算子(Lasso regularization)。通过L1可以实现特征选择,过滤掉一些没有信息的特征,使模型更有可解释性(Interpretability)。

L2范数

\begin{equation}
||x||_2= \sqrt {\sum_i x_i^2}
\end{equation}

L2也可以度量两个向量间的差异,如平方差和(Sum of Squared Difference):
\begin{equation}
SSD(x_1,x_2)= \sum_i (x_{1i}-x_{2i})^2
\end{equation}
L2范数通常会被用来做优化目标函数的正则化项,防止模型为了迎合训练集而过于复杂造成过拟合(训练误差很小而测试误差很大)的情况,从而提高模型的泛化能力。在回归里面叫“岭回归”(Ridge Regression)。

“bbb”

$L^\infty$范数(max norm)

用来度量向量元素的最大值

矩阵范数(Frobenius norm)

类似于向量的$L^2$ 范数。
\begin{equation}
||A||_F= \sqrt {\sum_{i,j} A_{ij}^2}
\end{equation}

向量点乘的范数形式

\begin{equation}
x^\top y = ||x||_2 ||y||_2 \cos \theta
\end{equation}

$\theta$是向量x与y之间的夹角。