ai.onnx.preview.training - Adam

Adam - 1 (ai.onnx.preview.training)

版本

  • 名称: Adam (GitHub)

  • : ai.onnx.preview.training

  • 自版本: 1

  • 函数: False

  • 支持级别: SupportType.COMMON

  • 形状推断: True

此版本的运算符自 ai.onnx.preview.training 域的版本 1 起可用。

摘要

计算 Adam 的一次迭代,Adam 是一种基于随机梯度的优化算法。此运算符可以进行多个张量变量的优化。

让我们定义此运算符的行为。首先,Adam 需要一些参数

  • 学习率“R”。

  • 更新计数“T”。也就是说,已进行的训练迭代次数。

  • L2 范数正则化系数“norm_coefficient”。

  • 一个小的常数“epsilon”,以避免除以零。

  • 两个系数,“alpha”和“beta”。

在每次 Adam 迭代中,被优化的张量会沿着一个方向移动,该方向根据其指数平均的历史梯度和指数平均的历史平方梯度计算得出。假设只有张量“X”正在被优化。其他所需信息是

  • “X”的值,

  • “X”的梯度(用“G”表示),

  • “X”的指数平均历史梯度(用“V”表示),以及

  • “X”的指数平均历史平方梯度(用“H”表示)。

其中一些参数作为输入张量传递给此运算符,而另一些参数则存储为此运算符的属性。具体来说,此运算符的输入张量列表为 [“R”, “T”, “X”, “G”, “V”, “H”]。也就是说,“R”是第一个输入,“T”是第二个输入,依此类推。其他参数以属性的形式给出,因为它们是常数。此外,相应的输出张量是

  • “X”的新值(称为“X_new”),

  • 新的指数平均历史梯度(用“V_new”表示),以及

  • 新的指数平均历史平方梯度(用“H_new”表示)。

这些输出是根据下面的伪代码计算出来的。

假设“+”, “-”, “*”, 和“/”都是带有 numpy 风格广播支持的逐元素算术运算。计算这些输出的伪代码如下所示

// 添加 0.5 * norm_coefficient * ||X||_2^2 的梯度,其中 ||X||_2 是 2 范数。 G_regularized = norm_coefficient * X + G

// 更新指数平均历史梯度。 V_new = alpha * V + (1 - alpha) * G_regularized

// 更新指数平均历史平方梯度。 H_new = beta * H + (1 - beta) * G_regularized * G_regularized

// 计算 H_new 的逐元素平方根。 V_new 将被逐元素地 // 除以 H_sqrt 以获得更好的更新方向。 H_sqrt = Sqrt(H_new) + epsilon

// 计算学习率。注意“alpha**T”/“beta**T”是 alpha/beta 的 T 次方。 R_adjusted = T > 0 ? R * Sqrt(1 - beta**T) / (1 - alpha**T) : R

// 计算“X”的新值。 X_new = X - R_adjusted * V_new / H_sqrt

// 更新后正则化。 X_final = (1 - norm_coefficient_post) * X_new

如果有多个输入要优化,则伪代码将独立应用于每个输入。

属性

  • alpha - FLOAT(默认值为 '0.9'

    运行平均中先前累积梯度的系数。默认为 0.9。

  • beta - FLOAT(默认值为 '0.999'

    运行平均中先前累积平方梯度的系数。默认为 0.999。

  • epsilon - FLOAT(默认值为 '0.0'

    一个小的标量,以避免除以零。

  • norm_coefficient - FLOAT(默认值为 '0.0'

    0.5 * norm_coefficient * ||X||_2^2 的正则化系数。默认为 0,这意味着没有正则化。

  • norm_coefficient_post - FLOAT(默认值为 '0.0'

    0.5 * norm_coefficient * ||X||_2^2 的正则化系数。默认为 0,这意味着没有正则化。

输入

3 到 2147483647 个输入。

  • R(异构) - T1

    初始学习率。

  • T(异构) - T2

    “X”的更新计数。它应该是一个标量。

  • 输入(可变) - T3

    要优化的张量,然后是各自的梯度,然后是各自的累积梯度(又名动量),最后是各自的累积平方梯度。例如,要优化张量“X_1”和“X_2”,输入列表将是 [“X_1”, “X_2”, “X_1”的梯度, “X_2”的梯度, “X_1”的累积梯度, “X_2”的累积梯度, “X_1”的累积平方梯度, “X_2”的累积平方梯度]。

输出

1 到 2147483647 个输出。

  • 输出(可变) - T3

    优化后的张量的新值,然后是各自的新累积梯度,最后是各自的新累积平方梯度。例如,如果优化了两个张量“X_1”和“X_2”,则输出列表将是 [“X_1”的新值, “X_2”的新值, “X_1”的新累积梯度, “X_2”的新累积梯度, “X_1”的新累积平方梯度, “X_2”的新累积平方梯度]。

类型约束

  • T1 在 ( tensor(double), tensor(float) ) 中

    将输入类型限制为浮点标量。

  • T2 在 ( tensor(int64) ) 中

    将输入类型限制为 64 位整数标量。

  • T3 在 ( tensor(double), tensor(float) ) 中

    将输入和输出类型限制为浮点张量。