DynamicQuantizeLinear¶
DynamicQuantizeLinear - 11¶
版本¶
域:
main
起始版本:
11
函数:
True
支持级别:
SupportType.COMMON
形状推断:
True
此版本的运算符自 版本 11 起可用。
摘要¶
此函数用于融合标量、零点和 FP32 到 8 位 FP32 输入数据的转换的计算。对于给定的 FP32 输入,输出标量、零点和量化输入。标量计算公式为
y_scale = (maximum(0, max(x)) - minimum(0, min(x))) / (qmax - qmin)
其中 qmax 和 qmin 是量化范围的最大值和最小值,例如在 uint8 的情况下为 [0, 255]
数据范围已调整为包含 0。
零点计算公式为
intermediate_zero_point = qmin - min(x)/y_scale
y_zero_point = cast(round(saturate(itermediate_zero_point)))
其中 qmax 和 qmin 是量化范围的最大值和最小值,例如在 uint8 的情况下为 [0, 255]
对于饱和,如果为 uint8 则饱和到 [0, 255],如果为 int8 则饱和到 [-127, 127]。目前只支持 uint8。
四舍五入到最近的偶数。
数据量化公式为
y = saturate (round (x / y_scale) + y_zero_point)
对于饱和,如果为 uint8 则饱和到 [0, 255],如果为 int8 则饱和到 [-127, 127]。目前只支持 uint8。
四舍五入到最近的偶数。
函数体¶
此操作符的函数定义。
<
domain: "",
opset_import: ["" : 11]
>
DynamicQuantizeLinear (x) => (y, y_scale, y_zero_point)
{
Q_Min = Constant <value: tensor = float {0}> ()
Q_Max = Constant <value: tensor = float {255}> ()
X_Min = ReduceMin <keepdims: int = 0> (x)
X_Min_Adjusted = Min (X_Min, Q_Min)
X_Max = ReduceMax <keepdims: int = 0> (x)
X_Max_Adjusted = Max (X_Max, Q_Min)
X_Range = Sub (X_Max_Adjusted, X_Min_Adjusted)
Scale = Div (X_Range, Q_Max)
Min_Scaled = Div (X_Min_Adjusted, Scale)
Initial_ZeroPoint_FP = Sub (Q_Min, Min_Scaled)
Clipped_ZeroPoint_FP = Clip (Initial_ZeroPoint_FP, Q_Min, Q_Max)
Rounded_ZeroPoint_FP = Round (Clipped_ZeroPoint_FP)
Zeropoint = Cast <to: int = 2> (Rounded_ZeroPoint_FP)
y_scale = Identity (Scale)
y_zero_point = Identity (Zeropoint)
y = QuantizeLinear (x, Scale, Zeropoint)
}
输入¶
x (异构) - T1
输入张量
输出¶
y (异构) - T2
量化输出张量
y_scale (异构) - tensor(float)
输出标量。它是一个标量,表示每张量/层量化。
y_zero_point (异构) - T2
输出零点。它是一个标量,表示每张量/层量化。
类型约束¶
T1 在 (
tensor(float)
) 中将 'x' 限制为浮点张量。
T2 在 (
tensor(uint8)
) 中将 'y_zero_point' 和 'y' 限制为 8 位无符号整数张量。