ai.onnx.preview.training - Adam¶

Adam - 1 (ai.onnx.preview.training)¶

此版本的运算符已在ai.onnx.preview.training 域的版本 1 开始可用。

计算 Adam 的一次迭代，Adam 是一种基于随机梯度的优化算法。此算子可以优化多个张量变量。

我们来定义此算子的行为。首先，Adam 需要一些参数：

在每次 Adam 迭代中，被优化的张量会沿着一个方向移动，该方向基于它们指数衰减的历史梯度和指数衰减的历史平方梯度计算得出。假设只有一个张量“X”被优化。其余所需信息为：

其中一些参数作为输入张量传递给此算子，另一些则作为此算子的属性存储。具体来说，此算子的输入张量列表为 [“R”, “T”, “X”, “G”, “V”, “H”]。即，“R”是第一个输入，“T”是第二个输入，依此类推。其他参数作为属性给出，因为它们是常量。此外，对应的输出张量为：

这些输出是根据下面的伪代码计算的。

假设“+”、“-”、“*”和“/”都是具有 numpy 风格广播支持的逐元素算术运算。计算这些输出的伪代码为：

// 添加 0.5 * norm_coefficient * ||X||_2^2 的梯度，其中 ||X||_2 是 2-范数。 G_regularized = norm_coefficient * X + G

// 更新指数衰减的历史梯度。 V_new = alpha * V + (1 - alpha) * G_regularized

// 更新指数衰减的历史平方梯度。 H_new = beta * H + (1 - beta) * G_regularized * G_regularized

// 计算 H_new 的逐元素平方根。 V_new 将被逐元素 // 除以 H_sqrt 以获得更好的更新方向。 H_sqrt = Sqrt(H_new) + epsilon

// 计算学习率。注意，“alphaT”/”betaT” 是 alpha/beta 的 T 次幂。 R_adjusted = T > 0 ? R * Sqrt(1 - betaT) / (1 - alphaT) : R

// 计算“X”的新值。 X_new = X - R_adjusted * V_new / H_sqrt

// 更新后正则化。 X_final = (1 - norm_coefficient_post) * X_new

如果有多个输入需要优化，伪代码将独立应用于其中的每一个。

alpha - FLOAT (默认值为 '0.9')

运行平均值中先前累积梯度的系数。默认为 0.9。
beta - FLOAT (默认值为 '0.999')

运行平均值中先前累积的平方梯度的系数。默认为 0.999。
epsilon - FLOAT (默认值为 '0.0')

避免除以零的小标量。
norm_coefficient - FLOAT (默认值为 '0.0')

0.5 * norm_coefficient * ||X||_2^2 的正则化系数。默认为 0，表示无正则化。
norm_coefficient_post - FLOAT (默认值为 '0.0')

0.5 * norm_coefficient * ||X||_2^2 的正则化系数。默认为 0，表示无正则化。

3 到 2147483647 个输入之间。

R（异构）- T1

初始学习率。
T（异构）- T2

“X”的更新计数。它应该是一个标量。
inputs（可变参数）- T3

需要优化的张量，后跟它们各自的梯度，后跟它们各自的累积梯度（又称动量），后跟它们各自的累积平方梯度。例如，要优化张量“X_1”和“X_2”，输入列表将是 [“X_1”, “X_2”, “X_1”的梯度, “X_2”的梯度, “X_1”的累积梯度, “X_2”的累积梯度, “X_1”的累积平方梯度, “X_2”的累积平方梯度]。

1 到 2147483647 个输出之间。

outputs（可变参数）- T3

优化后的张量的新值，后跟它们各自新的累积梯度，后跟它们各自新的累积平方梯度。例如，如果优化了两个张量“X_1”和“X_2”，输出列表将是 [“X_1”的新值, “X_2”的新值, “X_1”的新累积梯度, “X_2”的新累积梯度, “X_1”的新累积平方梯度, “X_2”的新累积平方梯度]。