交叉熵损失函数

doggie · 2025 年8 月 6 日 03:15

原文链接：损失函数｜交叉熵损失函数

损失函数｜交叉熵损失函数

小飞鱼

知乎上主要是技术记录，生活记录在抖音/B站：小飞鱼的日常

3069 赞同

这篇文章中，讨论的Cross Entropy损失函数常用于分类问题中，但是为什么它会在分类问题中这么有效呢？我们先从一个简单的分类例子来入手。

1. 图像分类任务

我们希望根据图片动物的轮廓、颜色等特征，来预测动物的类别，有三种可预测类别：猫、狗、猪。假设我们当前有两个模型（参数不同），这两个模型都是通过sigmoid/softmax的方式得到对于每个预测结果的概率值：

模型1：

预测	真实	是否正确
0.3 0.3 0.4	0 0 1 (猪)	正确
undefined	-—	-—
0.3 0.4 0.3	0 1 0 (狗)	正确
undefined	-—	-—
0.1 0.2 0.7	1 0 0 (猫)	错误
undefined	-—	-—

模型1对于样本1和样本2以非常微弱的优势判断正确，对于样本3的判断则彻底错误。

模型2：

预测	真实	是否正确
0.1 0.2 0.7	0 0 1 (猪)	正确
undefined	-—	-—
0.1 0.7 0.2	0 1 0 (狗)	正确
undefined	-—	-—
0.3 0.4 0.3	1 0 0 (猫)	错误
undefined	-—	-—

模型2对于样本1和样本2判断非常准确，对于样本3判断错误，但是相对来说没有错得太离谱。

好了，有了模型之后，我们需要通过定义损失函数来判断模型在样本上的表现了，那么我们可以定义哪些损失函数呢？

1.1 Classification Error（分类错误率）

最为直接的损失函数定义为： $classification error=frac{count of error items}{count of all items}$

模型1： $classification error=frac{1}{3}$

模型2： $classification error=frac{1}{3}$

我们知道，模型1和模型2虽然都是预测错了1个，但是相对来说模型2表现得更好，损失函数值照理来说应该更小，但是，很遗憾的是， $classification error$ 并不能判断出来，所以这种损失函数虽然好理解，但表现不太好。

1.2 Mean Squared Error (均方误差)

均方误差损失也是一种比较常见的损失函数，其定义为： $MSE=frac{1}{n}sum_{i}^n(hat{y_i}-y_i)^2$

模型1：

$begin{aligned} text{sample 1 loss=}(0.3-0)^2 + (0.3-0)^2 + (0.4-1)^2 = 0.54 text{sample 2 loss=}(0.3-0)^2 + (0.4-1)^2 + (0.3-0)^2 = 0.54 text{sample 3 loss=}(0.1-1)^2 + (0.2-0)^2 + (0.7-0)^2 = 1.34 end{aligned}$

对所有样本的loss求平均：

$MSE=frac{0.54+0.54+1.34}{3}=0.81$

模型2：

$begin{aligned} & text{sample 1 loss=}(0.1-0)^2 + (0.2-0)^2 + (0.7-1)^2 = 0.14 &text{sample 2 loss=}(0.1-0)^2 + (0.7-1)^2 + (0.2-0)^2 = 0.14 &text{sample 3 loss=}(0.3-1)^2 + (0.4-0)^2 + (0.3-0)^2 = 0.74 end{aligned}$

对所有样本的loss求平均：

$MSE=frac{0.14+0.14+0.74}{3}=0.34$

我们发现，MSE能够判断出来模型2优于模型1，那为什么不采样这种损失函数呢？主要原因是在分类问题中，使用sigmoid/softmx得到概率，配合MSE损失函数时，采用梯度下降法进行学习时，会出现模型一开始训练时，学习速率非常慢的情况（MSE损失函数）。

有了上面的直观分析，我们可以清楚的看到，对于分类问题的损失函数来说，分类错误率和均方误差损失都不是很好的损失函数，下面我们来看一下交叉熵损失函数的表现情况。

1.3 Cross Entropy Loss Function（交叉熵损失函数）

1.3.1 表达式

(1) 二分类

在二分的情况下，模型最后需要预测的结果只有两种情况，对于每个类别我们的预测得到的概率为 $p$ 和 $1-p$ ，此时表达式为（ $log$ 的底数是 $e$ ）：

$L = frac{1}{N}sum_{i} L_i = frac{1}{N}sum_{i}-y_icdot log(p_i) + (1-y_i)cdot log(1-p_i)$

其中：

$y_i$ —— 表示样本 $i$ 的label，正类为 $1$ ，负类为 $0$
$p_i$ —— 表示样本 $i$ 预测为正类的概率

(2) 多分类

多分类的情况实际上就是对二分类的扩展：

$L = frac{1}{N}sum_{i} L_i = - frac{1}{N}sum_{i} sum_{c=1}^My_{ic}log(p_{ic})$

其中：

$M$ ——类别的数量
$y_{ic}$ ——符号函数（ $0$ 或 $1$ ），如果样本 $i$ 的真实类别等于 $c$ 取 $1$ ，否则取 $0$
$p_{ic}$ ——观测样本 $i$ 属于类别 $c$ 的预测概率

现在我们利用这个表达式计算上面例子中的损失函数值：

模型1：
$begin{aligned} text{sample 1 loss} = - (0times log0.3 + 0times log0.3 + 1times log0.4) = 0.91 text{sample 2 loss} = - (0times log0.3 + 1times log0.4 + 0times log0.3) = 0.91 text{sample 3 loss} = - (1times log0.1 + 0times log0.2 + 0times log0.7) = 2.30 end{aligned}$

对所有样本的loss求平均：

$L=frac{0.91+0.91+2.3}{3}=1.37$

模型2：

$begin{aligned} text{sample 1 loss} = - (0times log0.1 + 0times log0.2 + 1times log0.7) = 0.35 text{sample 2 loss} = - (0times log0.1 + 1times log0.7 + 0times log0.2) = 0.35 text{sample 3 loss} = - (1times log0.3 + 0times log0.4 + 0times log0.4) = 1.20 end{aligned}$

对所有样本的loss求平均：

$L=frac{0.35+0.35+1.2}{3}=0.63$

上述计算可以使用python的sklearn库

from sklearn.metrics import log_loss 
y_true = [[0, 0, 1], [0, 1, 0], [1, 0, 0]] 
y_pred_1 = [[0.3, 0.3, 0.4], [0.3, 0.4, 0.3], [0.1, 0.2, 0.7]] 
y_pred_2 = [[0.1, 0.2, 0.7], [0.1, 0.7, 0.2], [0.3, 0.4, 0.3]] 
print(log_loss(y_true, y_pred_1)) 
print(log_loss(y_true, y_pred_2)) 
____________ 
1.3783888522474517 
0.6391075640678003

可以发现，交叉熵损失函数可以捕捉到模型1和模型2预测效果的差异。

2. 函数性质

可以看出，该函数是凸函数，求导时能够得到全局最优值。

3. 学习过程

交叉熵损失函数经常用于分类问题中，特别是在神经网络做分类问题时，也经常使用交叉熵作为损失函数，此外，由于交叉熵涉及到计算每个类别的概率，所以交叉熵几乎每次都和sigmoid(或softmax)函数一起出现。

我们用神经网络最后一层输出的情况，来看一眼整个模型预测、获得损失和学习的流程：

神经网络最后一层得到每个类别的得分scores（也叫logits）；
该得分经过sigmoid(或softmax)函数获得概率输出；
模型预测的类别概率输出与真实类别的one hot形式进行交叉熵损失函数的计算。

学习任务分为二分类和多分类情况，我们分别讨论这两种情况的学习过程。

3.1 二分类情况

二分类交叉熵损失函数学习过程

如上图所示，求导过程可分成三个子过程，即拆成三项偏导的乘积：

$frac{partial L_i}{partial w_i}=frac{partial L_i}{partial p_i}cdot frac{partial p_i}{partial s_i}cdot frac{partial s_i}{partial w_i}$

3.1.1 计算第一项： $frac{partial L_i}{partial p_i}$

$L_i = -y_icdot log(p_i) + (1-y_i)cdot log(1-p_i)$

- $p_i$ 表示样本 $i$ 预测为正类的概率

- $y_i$ 为符号函数，样本 $i$ 为正类时取 $1$ ，否则取 $0$

$begin{aligned} frac{partial L_i}{partial p_i} &=frac{partial -y_icdot log(p_i) + (1-y_i)cdot log(1-p_i)}{partial p_i} &= -frac{y_i}{p_i}-(1-y_i)cdot frac{1}{1-p_i}cdot (-1) &= -frac{y_i}{p_i}+frac{1-y_i}{1-p_i} &= -frac{y_i}{sigma(s_i)}+frac{1-y_i}{1-sigma(s_i)} end{aligned}$

3.1.2 计算第二项： $frac{partial p_i}{partial s_i}$

这一项要计算的是sigmoid函数对于score的导数，我们先回顾一下sigmoid函数和分数求导的公式：

$p = sigma(s) = frac{e^{s}}{1+e^{s}}$
$f'(x) = frac{g(x)}{h(x)}=frac{g'(x)h(x)-g(x){h}'(x)}{h^2(x)}$

$begin{aligned} frac{partial p_i}{partial s_i} &= frac{(e^{s_i})'cdot (1+e^{s_i})-e^{s_i}cdot (1+e^{s_i})'}{(1+e^{s_i})^2} &= frac{e^{s_i}cdot (1+e^{s_i})-e^{s_i}cdot e^{s_i}}{(1+e^{s_i})^2} &= frac{e^{s_i}}{(1+e^{s_i})^2} &= frac{e^{s_i}}{1+e^{s_i}}cdot frac{1}{1+e^{s_i}} &= sigma(s_i)cdot 1-sigma(s_i) end{aligned}$

3.1.3 计算第三项： $frac{partial s_i}{partial w_i }$

一般来说，scores是输入的线性函数作用的结果，所以有：
$frac{partial s_i}{partial w_i}=x_i$

3.1.4 计算结果 $frac{partial L_i}{partial w_i}$

$begin{aligned} frac{partial L_i}{partial w_i} &= frac{partial L_i}{partial p_i}cdot frac{partial p_i}{partial s_i}cdot frac{partial s_i}{partial w_i} &= -frac{y_i}{sigma(s_i)}+frac{1-y_i}{1-sigma(s_i)} cdot sigma(s_i)cdot 1-sigma(s_i)cdot x_i &= -frac{y_i}{sigma(s_i)}cdot sigma(s_i)cdot (1-sigma(s_i))+frac{1-y_i}{1-sigma(s_i)}cdot sigma(s_i)cdot (1-sigma(s_i))cdot x_i &= -y_i+y_icdot sigma(s_i)+sigma(s_i)-y_icdot sigma(s_i)cdot x_i &= sigma(s_i)-y_icdot x_i end{aligned}$

可以看到，我们得到了一个非常漂亮的结果，所以，使用交叉熵损失函数，不仅可以很好的衡量模型的效果，又可以很容易的的进行求导计算。

3.2 多分类情况

多分类交叉熵损失函数学习过程

如上图所示，求导过程可以分为三个子过程：

$frac{partial L_i}{partial w_{ic}}=frac{partial L_{i}}{partial p_{ik}}cdot frac{partial p_{ik}}{partial s_{ic}}cdot frac{partial s_{ic}}{partial w_{ic}}$

和二分类区别在于：

因为多分类只有一个类别为 $1$ ，其他为 $0$ ，不失一般性，我们可以假设 $y_{ik}$ 为 $1$ ，其他为 $0$ ，所以损失函数求和式子中只有 $y_{ik}$ 这项不为 $0$ ，即 $L_i = -log(p_{ik})$
$frac{partial p_{ik}}{partial s_{ic}}$ 这一项求导时，需要针对 $c$ 是否等于 $k$ 进行分类讨论（这里 $k$ 表示的是样本真实类别为 $k$ ， $c$ 表示的是对我们想对输入到 $s_{ic}$ 的参数 $w_{ic}$ 求导）

3.2.1 计算第一项： $frac{partial L_i}{partial p_{ik}}$

不失一般性，我们可以假设 $y_{ik}$ 为 $1$ ，其他为 $0$ ，则

$L_i = -log(p_{ik})$

求导：

$begin{aligned} frac{partial L_i}{partial p_{ik}} &=frac{partial -log(p_{ik})}{partial p_{ik}} &= -frac{1}{p_{ik}} end{aligned}$

3.2.2 计算第二项： $frac{partial p_{ik}}{partial s_{ic}}$

这一项要计算的是softmax函数对于得分的导数，我们先回顾一下softmax函数和分数求导的公式：

$p_{ik} = sigma(s_{ik}) = frac{e^{s_{ik}}}{sum e^{s_{ij}}}$
$f'(x) = frac{g(x)}{h(x)}=frac{g'(x)h(x)-g(x){h}'(x)}{h^2(x)}$

这里 $k$ 表示的是样本真实类别为 $k$ ， $c$ 表示的是对输入到 $s_{ic}$ 的参数 $w_{ic}$ 求导，这时候存在两种情况：

情况1: $c=k$

则第二项的求导式子，可以写成：

$frac{partial p_{ik}}{partial s_{ic}} = frac{partial p_{ik}}{partial s_{ik}}$

求导后得

$begin{aligned} frac{partial p_{ik}}{partial s_{ik}} &= frac{frac{partial e^{s_{ik}}}{partial s_{ik}}cdot sum e^{s_{ij}} -e^{s_{ik}}cdot frac{partial sum e^{s_{ij}}}{partial s_{ik}}}{(sum e^{s_{ij}})^2} &= frac{e^{s_{ik}}cdot sum e^{s_{ij}}-e^{s_{ik}}cdot e^{s_{ik}}}{(sum e^{s_{ij}})^2} &= frac{e^{s_{ik}}}{sum e^{s_{ij}}} - (frac{e^{s_{ik}}}{sum e^{s_{ij}}})^2 &= frac{e^{s_{ik}}}{sum e^{s_{ij}}}cdot (1-frac{e^{s_{ik}}}{sum e^{s_{ij}}}) &= p_{ik}cdot (1-p_{ik}) end{aligned}$

情况2: $cneq k$

此时 $s_{ic}$ 这一项只在分母中存在，求导后得：

$begin{aligned} frac{partial p_{ik}}{partial s_{ic}} &= frac{frac{partial e^{s_{ik}}}{partial s_{ic}}cdot sum e^{s_{ij}} -e^{s_{ik}}cdot frac{partial sum e^{s_{ij}}}{partial s_{ic}}}{(sum e^{s_{ij}})^2} &= frac{0cdot sum e^{s_{ij}}-e^{s_{ik}}cdot e^{s_{ic}}}{(sum e^{s_{ij}})^2} &= -frac{e^{s_{ik}}cdot e^{s_{ic}}}{(sum e^{s_{ij}})^2} &= -frac{e^{s_{ik}}}{sum e^{s_{ij}}}cdot frac{e^{s_{ic}}}{sum e^{s_{ij}}} &= -p_{ik}cdot p_{ic} end{aligned}$

3.2.3 计算第三项： $frac{partial s_{ic}}{partial w_{ic}}$

一般来说，scores是输入的线性函数作用的结果，所以有：

$frac{partial s_{ic}}{partial w_{ic}}=x_{ic}$

3.2.4 计算结果 $frac{partial L_{i}}{partial w_{ic}}$

$frac{partial L_{i}}{partial w_{ic}}=frac{partial L_{i}}{partial p_{ik}}cdot frac{partial p_{ik}}{partial s_{ic}}cdot frac{partial s_{ic}}{partial w_{ic}}$

情况1: $c=k$

$begin{aligned} frac{partial L_{i}}{partial w_{ic}} &= frac{partial L_{i}}{partial p_{ik}}cdot frac{partial p_{ik}}{partial s_{ic}}cdot frac{partial s_{ic}}{partial w_{ic}} &= (-frac{1}{p_{ik}})cdot p_{ik}cdot (1-p_{ik})cdot x_{ik} &= (p_{ik} - 1)cdot x_{ik} &= (p_{ik} - y_{ik})cdot x_{ik} &= sigma(s_{ik}) - y_{ik}cdot x_{ik} end{aligned}$

情况2: $cneq k$

$begin{aligned} frac{partial L_{i}}{partial w_{ic}} &= frac{partial L_{i}}{partial p_{ik}}cdot frac{partial p_{ik}}{partial s_{ic}}cdot frac{partial s_{ic}}{partial w_{ic}} &= (-frac{1}{p_{ik}})cdot -p_{ik}cdot p_{ic}cdot x_{ic} &= p_{ic}cdot x_{ic} &= (p_{ic}-0)cdot x_{ic} &= (p_{ic}-y_{ic})cdot x_{ic} &= sigma(s_{ic})-y_{ic}cdot x_{ic} end{aligned}$

不失一般性，我们上述假设样本的真实类别为 $k$ ，则有:

$y_{ik}=1$

$y_{ic}=0, cneq k$

我们求导时，对不同情况带入 $y$ 的值后，得到了一致的表达式，如果采用向量化的形式，那么导数就不用再分情况写了，统一成：

$frac{partial L_{i}}{partial w_{i}} = sigma(s_i)-y_icdot x_i$

可以看出，交叉熵损失函数对于二分类和多分类求导时，采用向量化的形式后，求导结果的形式是一致的。

4. 优缺点

4.1 优点

在用梯度下降法做参数更新的时候，模型学习的速度取决于两个值：一、学习率；二、偏导值。其中，学习率是我们需要设置的超参数，所以我们重点关注偏导值。从上面的式子中，我们发现，偏导值的大小取决于 $x_i$ 和 $sigma(s)-y$ ，我们重点关注后者，后者的大小值反映了我们模型的错误程度，该值越大，说明模型效果越差，但是该值越大同时也会使得偏导值越大，从而模型学习速度更快。所以，使用逻辑函数得到概率，并结合交叉熵当损失函数时，在模型效果差的时候学习速度比较快，在模型效果好的时候学习速度变慢。

4.2 缺点

Deng [4]在2019年提出了ArcFace Loss，并在论文里说了Softmax Loss的两个缺点：1、随着分类数目的增大，分类层的线性变化矩阵参数也随着增大；2、对于封闭集分类问题，学习到的特征是可分离的，但对于开放集人脸识别问题，所学特征却没有足够的区分性。对于人脸识别问题，首先人脸数目(对应分类数目)是很多的，而且会不断有新的人脸进来，不是一个封闭集分类问题。

另外，sigmoid(softmax)+cross-entropy loss 擅长于学习类间的信息，因为它采用了类间竞争机制，它只关心对于正确标签预测概率的准确性，忽略了其他非正确标签的差异，导致学习到的特征比较散。基于这个问题的优化有很多，比如对softmax进行改进，如L-Softmax、SM-Softmax、AM-Softmax等。

5. 参考

[1]. 博客 - 神经网络的分类模型 LOSS 函数为什么要用 CROSS ENTROPY

[2]. 博客 - Softmax as a Neural Networks Activation Function

[3]. 博客 - A Gentle Introduction to Cross-Entropy Loss Function

[4]. Deng, Jiankang, et al. “Arcface: Additive angular margin loss for deep face recognition.” Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2019.

话题	回复	浏览量
交叉熵损失cross entropy loss 🤖人工智能交叉熵 , 分类任务 , 损失函数 , 基本概念	1	2025 年11 月 25 日
【转载】大模型有哪些评估指标？ 🤖人工智能测评指标 , 转载 , 大模型	4	2025 年11 月 25 日
从混淆矩阵到 F1 score 💻编程人工智能	4	2025 年11 月 18 日
KL散度KL divergence 🤖人工智能基本概念 , kl-divergence	7	2025 年11 月 25 日
【转载】生存分析简明教程 🧠理论与科研医学统计学 , 生存分析 , kaplan-meier-生存曲线 , cox分析	42	2024 年8 月 28 日

交叉熵损失函数

1. 图像分类任务

1.1 Classification Error（分类错误率）

1.2 Mean Squared Error (均方误差)

1.3 Cross Entropy Loss Function（交叉熵损失函数）

1.3.1 表达式

(1) 二分类

(2) 多分类

2. 函数性质

3. 学习过程

3.1 二分类情况

3.1.1 计算第一项：

3.1.2 计算第二项：

3.1.3 计算第三项：

3.1.4 计算结果

3.2 多分类情况

3.2.1 计算第一项：

3.2.2 计算第二项：

3.2.3 计算第三项：

3.2.4 计算结果

4. 优缺点

4.1 优点

4.2 缺点

5. 参考

相关话题

3.1.1 计算第一项： $frac{partial L_i}{partial p_i}$

3.1.2 计算第二项： $frac{partial p_i}{partial s_i}$

3.1.3 计算第三项： $frac{partial s_i}{partial w_i }$

3.1.4 计算结果 $frac{partial L_i}{partial w_i}$

3.2.1 计算第一项： $frac{partial L_i}{partial p_{ik}}$

3.2.2 计算第二项： $frac{partial p_{ik}}{partial s_{ic}}$

3.2.3 计算第三项： $frac{partial s_{ic}}{partial w_{ic}}$

3.2.4 计算结果 $frac{partial L_{i}}{partial w_{ic}}$