DynamicQuantizeLinear¶

DynamicQuantizeLinear - 11¶

版本¶

名称: DynamicQuantizeLinear (GitHub)
域: main
起始版本: 11
函数: True
支持级别: SupportType.COMMON
形状推断: True

此版本算子自 版本 11 起可用。

摘要¶

一个函数，用于融合 Scale、Zero Point 的计算以及 FP32 输入数据的 FP32->8Bit 转换。对于给定的 FP32 输入，输出 Scale、ZeroPoint 和量化后的输入。Scale 计算公式为

y_scale = (maximum(0, max(x)) - minimum(0, min(x))) / (qmax - qmin)

其中 qmax 和 qmin 是量化范围的最大值和最小值，例如 uint8 的范围是 [0, 255]
数据范围已调整以包含 0。

Zero point 计算公式为

intermediate_zero_point = qmin - min(x)/y_scale
y_zero_point = cast(round(saturate(itermediate_zero_point)))

其中 qmax 和 qmin 是量化范围的最大值和最小值，例如 uint8 的范围是 [0, 255]
对于饱和处理，如果是 uint8，则饱和到 [0, 255]；如果是 int8，则饱和到 [-127, 127]。目前仅支持 uint8。
舍入到最近的偶数。

数据量化公式为

y = saturate (round (x / y_scale) + y_zero_point)

对于饱和处理，如果是 uint8，则饱和到 [0, 255]；如果是 int8，则饱和到 [-127, 127]。目前仅支持 uint8。
舍入到最近的偶数。

函数体¶

此算子的函数定义。

<
  domain: "",
  opset_import: ["" : 11]
>
DynamicQuantizeLinear (x) => (y, y_scale, y_zero_point)
{
   Q_Min = Constant <value: tensor = float {0}> ()
   Q_Max = Constant <value: tensor = float {255}> ()
   X_Min = ReduceMin <keepdims: int = 0> (x)
   X_Min_Adjusted = Min (X_Min, Q_Min)
   X_Max = ReduceMax <keepdims: int = 0> (x)
   X_Max_Adjusted = Max (X_Max, Q_Min)
   X_Range = Sub (X_Max_Adjusted, X_Min_Adjusted)
   Scale = Div (X_Range, Q_Max)
   Min_Scaled = Div (X_Min_Adjusted, Scale)
   Initial_ZeroPoint_FP = Sub (Q_Min, Min_Scaled)
   Clipped_ZeroPoint_FP = Clip (Initial_ZeroPoint_FP, Q_Min, Q_Max)
   Rounded_ZeroPoint_FP = Round (Clipped_ZeroPoint_FP)
   Zeropoint = Cast <to: int = 2> (Rounded_ZeroPoint_FP)
   y_scale = Identity (Scale)
   y_zero_point = Identity (Zeropoint)
   y = QuantizeLinear (x, Scale, Zeropoint)
}

输入¶

x (异构) - T1

输入张量

输出¶

y (异构) - T2

量化后的输出张量
y_scale (异构) - tensor(float)

输出 Scale。它是一个标量，意味着是逐张量/逐层量化。
y_zero_point (异构) - T2

输出 Zero point。它是一个标量，意味着是逐张量/逐层量化。

类型约束¶

T1 范围 ( tensor(float) )

将 'x' 约束为浮点张量。
T2 范围 ( tensor(uint8) )

将 ‘y_zero_point’ 和 ‘y’ 约束为 8 比特无符号整数张量。