ai.onnx.preview.training - Momentum¶

Momentum - 1 (ai.onnx.preview.training)¶

此版本的运算符已在ai.onnx.preview.training 域的版本 1 开始可用。

计算带动量的随机梯度更新的一个迭代。此运算符可以优化多个张量变量。

我们来定义此运算符的行为。正如您所料，带动量的 SG 需要几个参数

为简单起见，假设只有一个张量（称为“X”）需要优化。其他必要的输入是“X”的梯度（称为“G”）和“X”的动量（称为“V”）。此 Momentum 运算符将所有这些输入映射到“X”的新值（称为“X_new”）及其新动量（称为“V_new”）。

此运算符支持两种不同的动量算法。如果需要 Nesterov 动量，请将属性“mode”设置为“nesterov”。否则，将属性“model”设置为“standard”以使用标准动量。计算细节将在后续描述。

假设“+”、“-”、“*”和“/”都是具有 numpy 风格广播的逐元素操作。

标准动量的 SG 的伪代码

// 添加 0.5 * norm_coefficient * ||X||^2 的梯度，其中 ||X|| 是 X 中所有元素的平方和 // 值。G_regularized = norm_coefficient * X + G

// 在第一次训练迭代中，beta 始终应为 1。beta_adjusted = T > 0 ? beta : 1

// 根据先前的动量和当前梯度计算当前动量。V_new = alpha * V + beta_adjusted * G_regularized

// 更新 X。X_new = X - R * V_new

Nesterov 动量的 SG 的伪代码

// 添加 0.5 * norm_coefficient * ||X||^2 的梯度，其中 ||X|| 是 X 中所有元素的平方和 // 值。G_regularized = norm_coefficient * X + G;

// 在第一次训练迭代中，beta 始终应为 1。beta_adjusted = T > 0 ? beta : 1

// 根据先前的动量和当前梯度计算当前动量。V_new = alpha * V + beta_adjusted * G_regularized;

// 计算最终更新方向，然后更新 X。X_new = X - R * (G_regularized + alpha * V_new)

如果要将此运算符分配给优化多个输入，例如“X_1”和“X_2”。相同的伪代码将扩展以联合处理所有张量。更具体地说，我们可以将“X”视为“X_1”和“X_2”的连接（当然，它们的梯度和累积梯度也应该被连接），然后我们的伪代码就适用。

alpha - FLOAT (required)

动量的衰减因子。它应为标量。
beta - FLOAT (required)

计算新动量时梯度的系数。它应为标量。
mode - STRING (required)

其值应为“nesterov”或“standard”。值“nesterov”导致使用 Nesterov 动量，而“standard”则调用使用标准动量的随机梯度方法。
norm_coefficient - FLOAT (required)

0.5 * norm_coefficient * ||X||^2 的系数。

3 到 2147483647 个输入之间。

R（异构）- T1

学习率。
T（异构）- T2

“X”的更新计数。它应为标量。
inputs（可变参数）- T3

它依次包含优化张量的当前值，然后是它们的梯度张量，最后是它们的动量张量。例如，如果要优化两个张量“X_1”和“X_2”，则预期输入列表将是 [“X_1”、“X_2”、“X_1”的梯度、“X_2”的梯度、“X_1”的动量、“X_2”的动量]。

1 到 2147483647 个输出之间。

outputs（可变参数）- T3

它依次包含优化张量的新值，然后是它们的动量张量的新值。例如，如果要优化两个张量“X_1”和“X_2”，则输出列表将是 [“X_1”的新值、“X_2”的新值、“X_1”的新动量、“X_2”的新动量]。