RoiAlign¶

RoiAlign - 22¶

此版本的算子自 版本 22 起可用。

兴趣区域 (RoI) 对齐操作，在 Mask R-CNN 论文中有描述。RoiAlign 接收输入张量 X 和兴趣区域 (rois)，对每个 RoI 应用池化；它产生一个形状为 (num_rois, C, output_height, output_width) 的 4-D 张量。

提出 RoiAlign 是为了避免在从原始图像转换到特征图以及从特征图转换到 RoI 特征时移除量化引起的错位；在每个 RoI bin 中，采样位置的值通过双线性插值直接计算。

coordinate_transformation_mode - STRING (默认值为 'half_pixel')

允许的值为 ‘half_pixel’ 和 ‘output_half_pixel’。使用值 ‘half_pixel’ 将输入坐标像素偏移 -0.5（推荐的行为）。使用值 ‘output_half_pixel’ 以省略输入的像素偏移（用于向后兼容）。
mode - STRING (默认值为 'avg')

池化方法。支持两种模式：‘avg’ 和 ‘max’。默认值为 ‘avg’。
output_height - INT (默认值为 '1')

默认值为 1；池化输出 Y 的高度。
output_width - INT (默认值为 '1')

默认值为 1；池化输出 Y 的宽度。
sampling_ratio - INT (默认值为 '0')

用于计算每个池化输出 bin 输出值的插值网格中的采样点数。如果 > 0，则精确使用 sampling_ratio x sampling_ratio 个网格点。如果 == 0，则使用自适应数量的网格点（计算为 ceil(roi_width / output_width)，高度同理）。默认值为 0。
spatial_scale - FLOAT (默认值为 '1.0')

乘性空间比例因子，用于将 RoI 坐标从其输入空间比例转换为池化时使用的比例，即输入特征图 X 相对于输入图像的空间比例。例如；默认值为 1.0f。

X (异构) - T1

来自前一个算子的输入数据张量；形状为 (N, C, H, W) 的 4-D 特征图，其中 N 是批量大小，C 是通道数，H 和 W 是数据的高度和宽度。
rois (异构) - T1

用于池化的 RoI（兴趣区域）；rois 是形状为 (num_rois, 4) 的 2-D 输入，格式为 [[x1, y1, x2, y2], …]。RoI 的坐标位于输入图像的坐标系统中。每个坐标集与 ‘batch_indices’ 输入一一对应。
batch_indices (异构) - T2

形状为 (num_rois,) 的 1-D 张量，每个元素表示批量中对应图像的索引。

Y (异构) - T1

RoI 池化输出，形状为 (num_rois, C, output_height, output_width) 的 4-D 张量。第 r 个批量元素 Y[r-1] 是对应于第 r 个 RoI X[r-1] 的池化特征图。

T1 包含 ( tensor(bfloat16), tensor(double), tensor(float), tensor(float16) )

将类型约束为浮点张量。
T2 包含 ( tensor(int64) )

将类型约束为整数张量。

此版本的算子自 版本 16 起可用。

coordinate_transformation_mode - STRING (默认值为 'half_pixel')

允许的值为 ‘half_pixel’ 和 ‘output_half_pixel’。使用值 ‘half_pixel’ 将输入坐标像素偏移 -0.5（推荐的行为）。使用值 ‘output_half_pixel’ 以省略输入的像素偏移（用于向后兼容）。
mode - STRING (默认值为 'avg')

池化方法。支持两种模式：‘avg’ 和 ‘max’。默认值为 ‘avg’。
output_height - INT (默认值为 '1')

默认值为 1；池化输出 Y 的高度。
output_width - INT (默认值为 '1')

默认值为 1；池化输出 Y 的宽度。
sampling_ratio - INT (默认值为 '0')

用于计算每个池化输出 bin 输出值的插值网格中的采样点数。如果 > 0，则精确使用 sampling_ratio x sampling_ratio 个网格点。如果 == 0，则使用自适应数量的网格点（计算为 ceil(roi_width / output_width)，高度同理）。默认值为 0。
spatial_scale - FLOAT (默认值为 '1.0')

乘性空间比例因子，用于将 RoI 坐标从其输入空间比例转换为池化时使用的比例，即输入特征图 X 相对于输入图像的空间比例。例如；默认值为 1.0f。

X (异构) - T1

来自前一个算子的输入数据张量；形状为 (N, C, H, W) 的 4-D 特征图，其中 N 是批量大小，C 是通道数，H 和 W 是数据的高度和宽度。
rois (异构) - T1

用于池化的 RoI（兴趣区域）；rois 是形状为 (num_rois, 4) 的 2-D 输入，格式为 [[x1, y1, x2, y2], …]。RoI 的坐标位于输入图像的坐标系统中。每个坐标集与 ‘batch_indices’ 输入一一对应。
batch_indices (异构) - T2

形状为 (num_rois,) 的 1-D 张量，每个元素表示批量中对应图像的索引。

Y (异构) - T1

RoI 池化输出，形状为 (num_rois, C, output_height, output_width) 的 4-D 张量。第 r 个批量元素 Y[r-1] 是对应于第 r 个 RoI X[r-1] 的池化特征图。

此版本的算子自 版本 10 起可用。

mode - STRING (默认值为 'avg')

池化方法。支持两种模式：‘avg’ 和 ‘max’。默认值为 ‘avg’。
output_height - INT (默认值为 '1')

默认值为 1；池化输出 Y 的高度。
output_width - INT (默认值为 '1')

默认值为 1；池化输出 Y 的宽度。
sampling_ratio - INT (默认值为 '0')

用于计算每个池化输出 bin 输出值的插值网格中的采样点数。如果 > 0，则精确使用 sampling_ratio x sampling_ratio 个网格点。如果 == 0，则使用自适应数量的网格点（计算为 ceil(roi_width / output_width)，高度同理）。默认值为 0。
spatial_scale - FLOAT (默认值为 '1.0')

乘性空间比例因子，用于将 RoI 坐标从其输入空间比例转换为池化时使用的比例，即输入特征图 X 相对于输入图像的空间比例。例如；默认值为 1.0f。

X (异构) - T1

来自前一个算子的输入数据张量；形状为 (N, C, H, W) 的 4-D 特征图，其中 N 是批量大小，C 是通道数，H 和 W 是数据的高度和宽度。
rois (异构) - T1

用于池化的 RoI（兴趣区域）；rois 是形状为 (num_rois, 4) 的 2-D 输入，格式为 [[x1, y1, x2, y2], …]。RoI 的坐标位于输入图像的坐标系统中。每个坐标集与 ‘batch_indices’ 输入一一对应。
batch_indices (异构) - T2

形状为 (num_rois,) 的 1-D 张量，每个元素表示批量中对应图像的索引。

Y (异构) - T1

RoI 池化输出，形状为 (num_rois, C, output_height, output_width) 的 4-D 张量。第 r 个批量元素 Y[r-1] 是对应于第 r 个 RoI X[r-1] 的池化特征图。