铰链损失Hinge Loss

铰链损失(Hinge Loss)是一种常用于 支持向量机(SVM) 中的损失函数,尤其是在分类任务中。它衡量模型的预测结果与实际标签之间的差异,并试图最大化分类的间隔,使样本尽量远离决策边界。

铰链损失的公式

假设模型的输入为特征向量 x,目标标签为 y(取值为 +1 或 −1),模型的预测为 y^=wTx+b\hat{y} = w^T x + b。铰链损失的公式如下:

Hinge Loss=max(0,1yy^)\text{Hinge Loss} = \max(0, 1 - y \cdot \hat{y})

公式解释

  • y 是真实标签,取值为 +1 或 −1。
  • y^\hat{y} 是模型预测的值。
  • yy^1y \cdot \hat{y} \geq 1 时,损失为 0,这意味着样本被正确分类,并且与决策边界的间隔足够大。
  • yy^<1y \cdot \hat{y} < 1 时,损失为1yy^1 - y \cdot \hat{y},这意味着模型的预测与标签之间的差距越大,损失越大。

应用场景

铰链损失主要用于 线性支持向量机(Linear SVM) 的优化过程中,用来最大化分类的间隔,从而找到最优的决策边界。它的目标是:

  1. 正确分类 样本,使得$ y \cdot \hat{y} \geq 1$。
  2. 最大化决策边界的间隔,让分类更加可靠。

特点

  • 不适用于概率输出: 铰链损失并不提供概率输出,因此如果你需要概率(如在逻辑回归中),则更适合使用交叉熵损失。
  • 间隔最大化: 与其他损失函数不同,铰链损失会确保样本不仅被正确分类,还要求样本离决策边界有一定的距离。

铰链损失的图形解释

在分类问题中,铰链损失可以看作是基于预测值 $\hat{y} $和实际标签 y 之间的关系而定义的。当 $ y\cdot \hat{y} \geq 1$ 时,模型分类是正确且距离边界较远,不产生损失;当yy^<1y \cdot \hat{y} < 1 时,损失函数会线性增加。