SoftmaxCrossEntropyLoss

SoftmaxCrossEntropyLoss - 13

版本

此版本的运算符自 版本 13 起可用。

摘要

用于衡量‘scores’和‘labels’之间 softmax 交叉熵的损失函数。此算子首先计算一个形状与 labels 输入相同的损失张量。如果输入是形状为 (N, C) 的 2-D,则损失张量可能是一个 N 元素向量 L = (l_1, l_2, …, l_N)。如果输入是形状为 (N, C, D1, D2, …, Dk) 的 N-D 张量,则损失张量 L 的形状可能为 (N, D1, D2, …, Dk),并且 L[i,][j_1][j_2]…[j_k] 表示 L 中的一个标量元素。在 L 可用后,此算子可以可选地执行一个约简操作。

  • scores 的形状: (N, C),其中 C 是类的数量,或者 (N, C, D1, D2,…, Dk),其中 K >= 1(K 维损失)。

  • labels 的形状: (N),其中每个值满足 0 <= labels[i] <= C-1,或者 (N, D1, D2,…, Dk),其中 K >= 1(K 维损失)。

单个样本的损失 l_i 可以这样计算:

l[i][d1][d2]...[dk] = -y[i][c][d1][d2]..[dk], where i is the index of classes.

l[i][d1][d2]...[dk] = -y[i][c][d1][d2]..[dk] * weights[c], if 'weights' is provided.

当 label-value 等于 ignore_index 时,损失为零。

l[i][d1][d2]...[dk]  = 0, when labels[n][d1][d2]...[dk] = ignore_index

其中

p = Softmax(scores)
y = Log(p)
c = labels[i][d1][d2]...[dk]

最后,L 被可选地约简:

  • 如果 reduction = ‘none’,输出是 L,形状为 (N, D1, D2, …, Dk)。

  • 如果 reduction = ‘sum’,输出是标量:Sum(L)。

  • 如果 reduction = ‘mean’,输出是标量:ReduceMean(L),或者如果提供了 weight:ReduceSum(L) / ReduceSum(W),其中张量 W 的形状为 (N, D1, D2, ..., Dk)W[n][d1][d2]...[dk] = weights[labels[i][d1][d2]...[dk]]

属性

  • ignore_index - INT :

    指定一个目标值,该值将被忽略,并且不计入输入梯度。这是一个可选值。

  • reduction - STRING (默认是 'mean')

    应用于损失的约简类型:none, sum, mean(默认)。‘none’:不应用约简,‘sum’:输出将被求和。‘mean’:输出的总和将除以输出中的元素数量。

输入

2 到 3 个输入之间。

  • scores (异构) - T

    预测输出,形状为 [batch_size, class_size],或者 [batch_size, class_size, D1, D2 , …, Dk],其中 K 是维度数。

  • labels (异构) - Tind

    地面真实输出张量,形状为 [batch_size],或者 [batch_size, D1, D2, …, Dk],其中 K 是维度数。Labels 元素的值应在 [0, C) 范围内。如果指定了 ignore_index,则其值可能超出 [0, C) 范围,并且 label 值应在 [0, C) 范围内或等于 ignore_index。

  • weights (可选, 异构) - T

    为每个类手动指定的重缩放权重。如果给出,它必须是一个 1D 张量,为每个类分配权重。否则,它被视为所有权重都为一。

输出

介于 1 到 2 个输出之间。

  • 输出 (异构) - T

    加权损失浮点张量。如果 reduction 是 ‘none’,其形状为 [batch_size],或者在 K 维损失的情况下为 [batch_size, D1, D2, …, Dk]。否则,它是一个标量。

  • log_prob (可选, 异构) - T

    对数概率张量。如果 softmax 的输出是 prob,则其值为 log(prob)。

类型约束

  • T 在 ( tensor(bfloat16), tensor(double), tensor(float), tensor(float16) )

    将输入和输出类型限制为浮点张量。

  • Tind 在 ( tensor(int32), tensor(int64) )

    约束目标为整数类型

SoftmaxCrossEntropyLoss - 12

版本

此版本的运算符自 版本 12 起可用。

摘要

用于衡量‘scores’和‘labels’之间 softmax 交叉熵的损失函数。此算子首先计算一个形状与 labels 输入相同的损失张量。如果输入是形状为 (N, C) 的 2-D,则损失张量可能是一个 N 元素向量 L = (l_1, l_2, …, l_N)。如果输入是形状为 (N, C, D1, D2, …, Dk) 的 N-D 张量,则损失张量 L 的形状可能为 (N, D1, D2, …, Dk),并且 L[i,][j_1][j_2]…[j_k] 表示 L 中的一个标量元素。在 L 可用后,此算子可以可选地执行一个约简操作。

scores 的形状: (N, C),其中 C 是类的数量,或者 (N, C, D1, D2,…, Dk),其中 K >= 1(K 维损失)。labels 的形状: (N),其中每个值满足 0 <= labels[i] <= C-1,或者 (N, D1, D2,…, Dk),其中 K >= 1(K 维损失)。

单个样本的损失 l_i 可以这样计算:l[i][d1][d2]…[dk] = -y[i][c][d1][d2]…[dk],其中 i 是类的索引。或者 l[i][d1][d2]…[dk] = -y[i][c][d1][d2]…[dk] * weights[c],如果提供了‘weights’。

当 label-value 等于 ignore_index 时,损失为零。l[i][d1][d2]…[dk] = 0,当 labels[n][d1][d2]…[dk] = ignore_index 时。

其中:p = Softmax(scores) y = Log(p) c = labels[i][d1][d2]…[dk]

最后,L 被可选地约简:如果 reduction = ‘none’,输出是 L,形状为 (N, D1, D2, …, Dk)。如果 reduction = ‘sum’,输出是标量:Sum(L)。如果 reduction = ‘mean’,输出是标量:ReduceMean(L),或者如果提供了 weight:ReduceSum(L) / ReduceSum(W),其中张量 W 的形状为 (N, D1, D2, …, Dk) 且 W[n][d1][d2]…[dk] = weights[labels[i][d1][d2]…[dk]]。

属性

  • ignore_index - INT :

    指定一个目标值,该值将被忽略,并且不计入输入梯度。这是一个可选值。

  • reduction - STRING (默认是 'mean')

    应用于损失的约简类型:none, sum, mean(默认)。‘none’:不应用约简,‘sum’:输出将被求和。‘mean’:输出的总和将除以输出中的元素数量。

输入

2 到 3 个输入之间。

  • scores (异构) - T

    预测输出,形状为 [batch_size, class_size],或者 [batch_size, class_size, D1, D2 , …, Dk],其中 K 是维度数。

  • labels (异构) - Tind

    地面真实输出张量,形状为 [batch_size],或者 [batch_size, D1, D2, …, Dk],其中 K 是维度数。Labels 元素的值应在 [0, C) 范围内。如果指定了 ignore_index,则其值可能超出 [0, C) 范围,并且 label 值应在 [0, C) 范围内或等于 ignore_index。

  • weights (可选, 异构) - T

    为每个类手动指定的重缩放权重。如果给出,它必须是一个 1D 张量,为每个类分配权重。否则,它被视为所有权重都为一。

输出

介于 1 到 2 个输出之间。

  • 输出 (异构) - T

    加权损失浮点张量。如果 reduction 是 ‘none’,其形状为 [batch_size],或者在 K 维损失的情况下为 [batch_size, D1, D2, …, Dk]。否则,它是一个标量。

  • log_prob (可选, 异构) - T

    对数概率张量。如果 softmax 的输出是 prob,则其值为 log(prob)。

类型约束

  • T 在 ( tensor(double), tensor(float), tensor(float16) )

    将输入和输出类型限制为浮点张量。

  • Tind 在 ( tensor(int32), tensor(int64) )

    约束目标为整数类型