Keras 和 TensorFlow 中所有这些交叉熵损失之间有什么区别？

Question

所有这些交叉熵损失之间有什么区别？

Keras 正在谈论

二元交叉熵
分类交叉熵
稀疏分类交叉熵

虽然 TensorFlow 有

带有 logits 的 Softmax 交叉熵
带有 logits 的稀疏 softmax 交叉熵
带有 logits 的 Sigmoid 交叉熵

它们之间有什么区别和关系？ 它们的典型应用是什么？ 数学背景是什么？ 还有其他应该知道的交叉熵类型吗？ 有没有没有 logits 的交叉熵类型？

Answer 1

只有一个交叉（香农）熵定义为：

H(P||Q) = - SUM_i P(X=i) log Q(X=i)

在机器学习使用中， P是实际（ground truth）分布， Q是预测分布。 您列出的所有函数都只是辅助函数，它们接受不同的方式来表示P和Q 。

基本上有3个主要的考虑事项：

有两种可能的结果（二元分类）或更多。 如果只有两个结果，那么Q(X=1) = 1 - Q(X=0)所以 (0,1) 中的单个浮点数标识了整个分布，这就是二元分类中的神经网络具有单个输出的原因（逻辑回归也是如此）。 如果有 K>2 个可能的结果，则必须定义 K 个输出（每个Q(X=...) ）
一个要么产生适当的概率（意味着Q(X=i)>=0和SUM_i Q(X=i) =1或者只是产生一个“分数”并且有一些将分数转换为概率的固定方法。例如一个实数可以通过采用sigmoid来“转换为概率”，一组实数可以通过他们的softmax等进行转换。
有j使得P(X=j)=1 （有一个“真正的类别”，目标是“硬”的，比如“这张图片代表一只猫”）或者有“软目标”（比如“我们是 60 % 确定这是一只猫，但 40% 它实际上是一只狗”）。

根据这三个方面，应该使用不同的辅助函数：

                                  outcomes     what is in Q    targets in P   
-------------------------------------------------------------------------------
binary CE                                2      probability         any
categorical CE                          >2      probability         soft
sparse categorical CE                   >2      probability         hard
sigmoid CE with logits                   2      score               any
softmax CE with logits                  >2      score               soft
sparse softmax CE with logits           >2      score               hard

最后，人们只能使用“分类交叉熵”，因为这是数学定义的方式，但是由于硬目标或二元分类之类的东西非常流行 - 现代 ML 库确实提供了这些额外的辅助函数来使事情变得更简单。 特别是“堆叠” sigmoid 和交叉熵可能在数值上不稳定，但如果知道这两个操作一起应用 - 它们组合的数值稳定版本（在 TF 中实现）。

重要的是要注意，如果应用错误的辅助函数，代码通常仍会执行，但结果将是错误的。 例如，如果您将 softmax_* 助手应用于具有一个输出的二进制分类，则您的网络将被视为始终在输出处产生“真”。

最后一点 - 这个答案考虑了分类，当您考虑多标签情况时（当一个点可以有多个标签时）略有不同，因为 Ps 的总和不为 1，尽管有多个输出单元，但仍应使用 sigmoid_cross_entropy_with_logits .

Answer 2

疏

稀疏函数使用目标数据（ground truth）作为“整数标签”：0, 1, 2, 3, 4.....
非稀疏函数使用目标数据作为“one-hot label”：[1,0,0], [0,1,0], [0,0,1]

二元交叉熵 = Sigmoid 交叉熵

问题类型：
- 单类（假/真）； 或者
- 非排他性多类（许多类可能是正确的）
模型输出形状： (batch, ..., >=1)
激活： "sigmoid"

分类交叉熵 = Softmax 交叉熵

问题类型：独占类（可能只有一个类是正确的）
模型输出形状： (batch, ..., >=2)
激活： "softmax"

Keras 和 TensorFlow 中所有这些交叉熵损失之间有什么区别？

问题描述

2 个解决方案

解决方案1
30 已采纳 2017-06-21 18:57:40

解决方案2
9 2020-01-30 14:41:58

登录

疏

二元交叉熵 = Sigmoid 交叉熵

分类交叉熵 = Softmax 交叉熵

Keras 和 TensorFlow 中所有这些交叉熵损失之间有什么区别？

问题描述

2 个解决方案

解决方案1 30 已采纳 2017-06-21 18:57:40

解决方案2 9 2020-01-30 14:41:58

登录

疏

二元交叉熵 = Sigmoid 交叉熵

分类交叉熵 = Softmax 交叉熵

解决方案1
30 已采纳 2017-06-21 18:57:40

解决方案2
9 2020-01-30 14:41:58