交叉熵损失函数

原文链接:损失函数|交叉熵损失函数

损失函数|交叉熵损失函数

小飞鱼

知乎上主要是技术记录,生活记录在抖音/B站:小飞鱼的日常

3069 赞同

这篇文章中,讨论的Cross Entropy损失函数常用于分类问题中,但是为什么它会在分类问题中这么有效呢?我们先从一个简单的分类例子来入手。

1. 图像分类任务

我们希望根据图片动物的轮廓、颜色等特征,来预测动物的类别,有三种可预测类别:猫、狗、猪。假设我们当前有两个模型(参数不同),这两个模型都是通过sigmoid/softmax的方式得到对于每个预测结果的概率值:

模型1

预测 真实 是否正确
0.3 0.3 0.4 0 0 1 (猪) 正确
undefined -— -—
0.3 0.4 0.3 0 1 0 (狗) 正确
undefined -— -—
0.1 0.2 0.7 1 0 0 (猫) 错误
undefined -— -—

模型1对于样本1和样本2以非常微弱的优势判断正确,对于样本3的判断则彻底错误。

模型2

预测 真实 是否正确
0.1 0.2 0.7 0 0 1 (猪) 正确
undefined -— -—
0.1 0.7 0.2 0 1 0 (狗) 正确
undefined -— -—
0.3 0.4 0.3 1 0 0 (猫) 错误
undefined -— -—

模型2对于样本1和样本2判断非常准确,对于样本3判断错误,但是相对来说没有错得太离谱。

好了,有了模型之后,我们需要通过定义损失函数来判断模型在样本上的表现了,那么我们可以定义哪些损失函数呢?

1.1 Classification Error(分类错误率)

最为直接的损失函数定义为: classification error=frac{count of error items}{count of  all items}

模型1: classification error=frac{1}{3}

模型2: classification error=frac{1}{3}

我们知道,模型1模型2虽然都是预测错了1个,但是相对来说模型2表现得更好,损失函数值照理来说应该更小,但是,很遗憾的是, classification error 并不能判断出来,所以这种损失函数虽然好理解,但表现不太好。

1.2 Mean Squared Error (均方误差)

均方误差损失也是一种比较常见的损失函数,其定义为: MSE=frac{1}{n}sum_{i}^n(hat{y_i}-y_i)^2

模型1:

begin{aligned}    text{sample 1 loss=}(0.3-0)^2 + (0.3-0)^2 + (0.4-1)^2 = 0.54     text{sample 2 loss=}(0.3-0)^2 + (0.4-1)^2 + (0.3-0)^2 = 0.54     text{sample 3 loss=}(0.1-1)^2 + (0.2-0)^2 + (0.7-0)^2 = 1.34  end{aligned}

对所有样本的loss求平均:

MSE=frac{0.54+0.54+1.34}{3}=0.81

模型2:

begin{aligned}   & text{sample 1 loss=}(0.1-0)^2 + (0.2-0)^2 + (0.7-1)^2 = 0.14    &text{sample 2 loss=}(0.1-0)^2 + (0.7-1)^2 + (0.2-0)^2 = 0.14    &text{sample 3 loss=}(0.3-1)^2 + (0.4-0)^2 + (0.3-0)^2 = 0.74 end{aligned}

对所有样本的loss求平均:

MSE=frac{0.14+0.14+0.74}{3}=0.34

我们发现,MSE能够判断出来模型2优于模型1,那为什么不采样这种损失函数呢?主要原因是在分类问题中,使用sigmoid/softmx得到概率,配合MSE损失函数时,采用梯度下降法进行学习时,会出现模型一开始训练时,学习速率非常慢的情况(MSE损失函数)。

有了上面的直观分析,我们可以清楚的看到,对于分类问题的损失函数来说,分类错误率和均方误差损失都不是很好的损失函数,下面我们来看一下交叉熵损失函数的表现情况。

1.3 Cross Entropy Loss Function(交叉熵损失函数)

1.3.1 表达式

(1) 二分类

在二分的情况下,模型最后需要预测的结果只有两种情况,对于每个类别我们的预测得到的概率为 p1-p ,此时表达式为(log 的底数是 e):

L = frac{1}{N}sum_{i} L_i = frac{1}{N}sum_{i}-y_icdot log(p_i) + (1-y_i)cdot log(1-p_i)

其中:

  • y_i —— 表示样本 i 的label,正类为 1 ,负类为 0
  • p_i —— 表示样本 i 预测为正类的概率

(2) 多分类

多分类的情况实际上就是对二分类的扩展:

L = frac{1}{N}sum_{i} L_i = - frac{1}{N}sum_{i} sum_{c=1}^My_{ic}log(p_{ic})

其中:

  • M ——类别的数量
  • y_{ic} ——符号函数( 01 ),如果样本 i 的真实类别等于 c1 ,否则取 0
  • p_{ic} ——观测样本 i 属于类别 c 的预测概率

现在我们利用这个表达式计算上面例子中的损失函数值:

模型1
begin{aligned}    text{sample 1 loss} = - (0times log0.3 + 0times log0.3 + 1times log0.4) = 0.91     text{sample 2 loss} = - (0times log0.3 + 1times log0.4 + 0times log0.3) = 0.91     text{sample 3 loss} = - (1times log0.1 + 0times log0.2 + 0times log0.7) = 2.30  end{aligned}

对所有样本的loss求平均:

L=frac{0.91+0.91+2.3}{3}=1.37

模型2:

begin{aligned}    text{sample 1 loss} = - (0times log0.1 + 0times log0.2 + 1times log0.7) = 0.35     text{sample 2 loss} = - (0times log0.1 + 1times log0.7 + 0times log0.2) = 0.35     text{sample 3 loss} = - (1times log0.3 + 0times log0.4 + 0times log0.4) = 1.20  end{aligned}

对所有样本的loss求平均:

L=frac{0.35+0.35+1.2}{3}=0.63

上述计算可以使用python的sklearn库

from sklearn.metrics import log_loss 
y_true = [[0, 0, 1], [0, 1, 0], [1, 0, 0]] 
y_pred_1 = [[0.3, 0.3, 0.4], [0.3, 0.4, 0.3], [0.1, 0.2, 0.7]] 
y_pred_2 = [[0.1, 0.2, 0.7], [0.1, 0.7, 0.2], [0.3, 0.4, 0.3]] 
print(log_loss(y_true, y_pred_1)) 
print(log_loss(y_true, y_pred_2)) 
____________ 
1.3783888522474517 
0.6391075640678003 

可以发现,交叉熵损失函数可以捕捉到模型1模型2预测效果的差异。

2. 函数性质

可以看出,该函数是凸函数,求导时能够得到全局最优值。

3. 学习过程

交叉熵损失函数经常用于分类问题中,特别是在神经网络做分类问题时,也经常使用交叉熵作为损失函数,此外,由于交叉熵涉及到计算每个类别的概率,所以交叉熵几乎每次都和sigmoid(或softmax)函数一起出现。

我们用神经网络最后一层输出的情况,来看一眼整个模型预测、获得损失和学习的流程:

  1. 神经网络最后一层得到每个类别的得分scores(也叫logits)

  2. 该得分经过sigmoid(或softmax)函数获得概率输出;

  3. 模型预测的类别概率输出与真实类别的one hot形式进行交叉熵损失函数的计算。

学习任务分为二分类和多分类情况,我们分别讨论这两种情况的学习过程。

3.1 二分类情况

二分类交叉熵损失函数学习过程

如上图所示,求导过程可分成三个子过程,即拆成三项偏导的乘积:

frac{partial L_i}{partial w_i}=frac{partial L_i}{partial p_i}cdot frac{partial p_i}{partial s_i}cdot frac{partial s_i}{partial w_i}

3.1.1 计算第一项: frac{partial L_i}{partial p_i}

L_i = -y_icdot log(p_i) + (1-y_i)cdot log(1-p_i)

- p_i 表示样本 i 预测为正类的概率

- y_i 为符号函数,样本 i 为正类时取 1 ,否则取 0

begin{aligned} frac{partial L_i}{partial p_i} &=frac{partial -y_icdot log(p_i) + (1-y_i)cdot log(1-p_i)}{partial p_i}  &= -frac{y_i}{p_i}-(1-y_i)cdot frac{1}{1-p_i}cdot (-1)    &= -frac{y_i}{p_i}+frac{1-y_i}{1-p_i}   &= -frac{y_i}{sigma(s_i)}+frac{1-y_i}{1-sigma(s_i)}  end{aligned}

3.1.2 计算第二项: frac{partial p_i}{partial s_i}

这一项要计算的是sigmoid函数对于score的导数,我们先回顾一下sigmoid函数和分数求导的公式:

p = sigma(s) = frac{e^{s}}{1+e^{s}}
f'(x) = frac{g(x)}{h(x)}=frac{g'(x)h(x)-g(x){h}'(x)}{h^2(x)}

begin{aligned}  frac{partial p_i}{partial s_i} &= frac{(e^{s_i})'cdot (1+e^{s_i})-e^{s_i}cdot (1+e^{s_i})'}{(1+e^{s_i})^2}   &= frac{e^{s_i}cdot (1+e^{s_i})-e^{s_i}cdot e^{s_i}}{(1+e^{s_i})^2}   &= frac{e^{s_i}}{(1+e^{s_i})^2}   &= frac{e^{s_i}}{1+e^{s_i}}cdot frac{1}{1+e^{s_i}}   &= sigma(s_i)cdot 1-sigma(s_i)  end{aligned}

3.1.3 计算第三项: frac{partial s_i}{partial w_i }

一般来说,scores是输入的线性函数作用的结果,所以有:
frac{partial s_i}{partial w_i}=x_i

3.1.4 计算结果 frac{partial L_i}{partial w_i}

begin{aligned}  frac{partial L_i}{partial w_i} &= frac{partial L_i}{partial p_i}cdot frac{partial p_i}{partial s_i}cdot frac{partial s_i}{partial w_i}    &= -frac{y_i}{sigma(s_i)}+frac{1-y_i}{1-sigma(s_i)} cdot sigma(s_i)cdot 1-sigma(s_i)cdot x_i    &= -frac{y_i}{sigma(s_i)}cdot sigma(s_i)cdot (1-sigma(s_i))+frac{1-y_i}{1-sigma(s_i)}cdot sigma(s_i)cdot (1-sigma(s_i))cdot x_i    &= -y_i+y_icdot sigma(s_i)+sigma(s_i)-y_icdot sigma(s_i)cdot x_i   &= sigma(s_i)-y_icdot x_i  end{aligned}

可以看到,我们得到了一个非常漂亮的结果,所以,使用交叉熵损失函数,不仅可以很好的衡量模型的效果,又可以很容易的的进行求导计算。

3.2 多分类情况

多分类交叉熵损失函数学习过程

如上图所示,求导过程可以分为三个子过程:

frac{partial L_i}{partial w_{ic}}=frac{partial L_{i}}{partial p_{ik}}cdot frac{partial p_{ik}}{partial s_{ic}}cdot frac{partial s_{ic}}{partial w_{ic}}

和二分类区别在于:

  • 因为多分类只有一个类别为 1 ,其他为 0 ,不失一般性,我们可以假设 y_{ik}1 ,其他为 0 ,所以损失函数求和式子中只有 y_{ik} 这项不为 0 ,即 L_i = -log(p_{ik})

  • frac{partial p_{ik}}{partial s_{ic}} 这一项求导时,需要针对 c 是否等于 k 进行分类讨论(这里 k 表示的是样本真实类别为 kc 表示的是对我们想对输入到 s_{ic} 的参数 w_{ic} 求导)

3.2.1 计算第一项: frac{partial L_i}{partial p_{ik}}

不失一般性,我们可以假设 y_{ik}1 ,其他为 0 ,则

L_i = -log(p_{ik})

求导:

begin{aligned} frac{partial L_i}{partial p_{ik}} &=frac{partial -log(p_{ik})}{partial p_{ik}} &= -frac{1}{p_{ik}} end{aligned}

3.2.2 计算第二项: frac{partial p_{ik}}{partial s_{ic}}

这一项要计算的是softmax函数对于得分的导数,我们先回顾一下softmax函数和分数求导的公式:

p_{ik} = sigma(s_{ik}) = frac{e^{s_{ik}}}{sum e^{s_{ij}}}
f'(x) = frac{g(x)}{h(x)}=frac{g'(x)h(x)-g(x){h}'(x)}{h^2(x)}

这里 k 表示的是样本真实类别为 kc 表示的是对输入到 s_{ic} 的参数 w_{ic} 求导,这时候存在两种情况:

情况1: c=k

则第二项的求导式子,可以写成:

frac{partial p_{ik}}{partial s_{ic}} = frac{partial p_{ik}}{partial s_{ik}}

求导后得

begin{aligned}  frac{partial p_{ik}}{partial s_{ik}} &= frac{frac{partial e^{s_{ik}}}{partial s_{ik}}cdot sum e^{s_{ij}} -e^{s_{ik}}cdot frac{partial sum e^{s_{ij}}}{partial s_{ik}}}{(sum e^{s_{ij}})^2}   &= frac{e^{s_{ik}}cdot sum e^{s_{ij}}-e^{s_{ik}}cdot e^{s_{ik}}}{(sum e^{s_{ij}})^2}   &= frac{e^{s_{ik}}}{sum e^{s_{ij}}} - (frac{e^{s_{ik}}}{sum e^{s_{ij}}})^2   &= frac{e^{s_{ik}}}{sum e^{s_{ij}}}cdot (1-frac{e^{s_{ik}}}{sum e^{s_{ij}}})   &= p_{ik}cdot (1-p_{ik})  end{aligned}

情况2: cneq k

此时 s_{ic} 这一项只在分母中存在,求导后得:

begin{aligned}  frac{partial p_{ik}}{partial s_{ic}} &= frac{frac{partial e^{s_{ik}}}{partial s_{ic}}cdot sum e^{s_{ij}} -e^{s_{ik}}cdot frac{partial sum e^{s_{ij}}}{partial s_{ic}}}{(sum e^{s_{ij}})^2}   &= frac{0cdot sum e^{s_{ij}}-e^{s_{ik}}cdot e^{s_{ic}}}{(sum e^{s_{ij}})^2}   &= -frac{e^{s_{ik}}cdot e^{s_{ic}}}{(sum e^{s_{ij}})^2}    &= -frac{e^{s_{ik}}}{sum e^{s_{ij}}}cdot frac{e^{s_{ic}}}{sum e^{s_{ij}}}   &= -p_{ik}cdot p_{ic}  end{aligned}

3.2.3 计算第三项: frac{partial s_{ic}}{partial w_{ic}}

一般来说,scores是输入的线性函数作用的结果,所以有:

frac{partial s_{ic}}{partial w_{ic}}=x_{ic}

3.2.4 计算结果 frac{partial L_{i}}{partial w_{ic}}

frac{partial L_{i}}{partial w_{ic}}=frac{partial L_{i}}{partial p_{ik}}cdot frac{partial p_{ik}}{partial s_{ic}}cdot frac{partial s_{ic}}{partial w_{ic}}

情况1: c=k

begin{aligned} frac{partial L_{i}}{partial w_{ic}} &= frac{partial L_{i}}{partial p_{ik}}cdot frac{partial p_{ik}}{partial s_{ic}}cdot frac{partial s_{ic}}{partial w_{ic}}  &= (-frac{1}{p_{ik}})cdot p_{ik}cdot (1-p_{ik})cdot x_{ik} &= (p_{ik} - 1)cdot x_{ik} &= (p_{ik} - y_{ik})cdot x_{ik} &= sigma(s_{ik}) - y_{ik}cdot x_{ik} end{aligned}

情况2: cneq k

begin{aligned} frac{partial L_{i}}{partial w_{ic}} &= frac{partial L_{i}}{partial p_{ik}}cdot frac{partial p_{ik}}{partial s_{ic}}cdot frac{partial s_{ic}}{partial w_{ic}}  &= (-frac{1}{p_{ik}})cdot -p_{ik}cdot p_{ic}cdot x_{ic} &= p_{ic}cdot x_{ic} &= (p_{ic}-0)cdot x_{ic} &= (p_{ic}-y_{ic})cdot x_{ic} &= sigma(s_{ic})-y_{ic}cdot x_{ic} end{aligned}

不失一般性,我们上述假设样本的真实类别为k ,则有:

y_{ik}=1

y_{ic}=0, cneq k

我们求导时,对不同情况带入 y 的值后,得到了一致的表达式,如果采用向量化的形式,那么导数就不用再分情况写了,统一成:

frac{partial L_{i}}{partial w_{i}} = sigma(s_i)-y_icdot x_i

可以看出,交叉熵损失函数对于二分类和多分类求导时,采用向量化的形式后,求导结果的形式是一致的。

4. 优缺点

4.1 优点

在用梯度下降法做参数更新的时候,模型学习的速度取决于两个值:一、学习率;二、偏导值。其中,学习率是我们需要设置的超参数,所以我们重点关注偏导值。从上面的式子中,我们发现,偏导值的大小取决于 x_isigma(s)-y ,我们重点关注后者,后者的大小值反映了我们模型的错误程度,该值越大,说明模型效果越差,但是该值越大同时也会使得偏导值越大,从而模型学习速度更快。所以,使用逻辑函数得到概率,并结合交叉熵当损失函数时,在模型效果差的时候学习速度比较快,在模型效果好的时候学习速度变慢。

4.2 缺点

Deng [4]在2019年提出了ArcFace Loss,并在论文里说了Softmax Loss的两个缺点:1、随着分类数目的增大,分类层的线性变化矩阵参数也随着增大;2、对于封闭集分类问题,学习到的特征是可分离的,但对于开放集人脸识别问题,所学特征却没有足够的区分性。对于人脸识别问题,首先人脸数目(对应分类数目)是很多的,而且会不断有新的人脸进来,不是一个封闭集分类问题。

另外,sigmoid(softmax)+cross-entropy loss 擅长于学习类间的信息,因为它采用了类间竞争机制,它只关心对于正确标签预测概率的准确性,忽略了其他非正确标签的差异,导致学习到的特征比较散。基于这个问题的优化有很多,比如对softmax进行改进,如L-Softmax、SM-Softmax、AM-Softmax等。

5. 参考

[1]. 博客 - 神经网络的分类模型 LOSS 函数为什么要用 CROSS ENTROPY

[2]. 博客 - Softmax as a Neural Networks Activation Function

[3]. 博客 - A Gentle Introduction to Cross-Entropy Loss Function

[4]. Deng, Jiankang, et al. “Arcface: Additive angular margin loss for deep face recognition.” Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2019.