RoiAlign¶
RoiAlign - 22¶
版本¶
领域:
main
since_version:
22
function:
False
support_level:
SupportType.COMMON
shape inference:
True
此版本的运算符已从版本 22 开始可用。
摘要¶
在Mask R-CNN 论文中描述的兴趣区域 (RoI) 对齐操作。RoiAlign 使用输入张量 X 和兴趣区域 (roi) 在每个 RoI 上应用池化;它生成一个形状为 (num_rois, C, output_height, output_width) 的 4 维张量。
RoiAlign 被提议通过删除量化来避免错位,而量化是在将原始图像转换为特征图以及将特征图转换为 RoI 特征时发生的;在每个 ROI bin 中,采样位置的值是通过双线性插值直接计算的。
属性¶
coordinate_transformation_mode - STRING (默认值为
'half_pixel'
)允许的值为 'half_pixel' 和 'output_half_pixel'。使用值 'half_pixel' 将输入坐标按 -0.5(推荐的行为)进行像素偏移。使用值 'output_half_pixel' 忽略输入的像素偏移(对于向后兼容的行为,请使用此值)。
mode - STRING (默认值为
'avg'
)池化方法。支持两种模式:'avg' 和 'max'。默认值为 'avg'。
output_height - INT (默认值为
'1'
)默认值为 1;池化输出 Y 的高度。
output_width - INT (默认值为
'1'
)默认值为 1;池化输出 Y 的宽度。
sampling_ratio - INT (默认值为
'0'
)用于计算每个池化输出 bin 的输出值的插值网格中的采样点数。如果 > 0,则使用 exactly sampling_ratio x sampling_ratio 网格点。如果 == 0,则使用自适应数量的网格点(计算为 ceil(roi_width / output_width),高度也是如此)。默认值为 0。
spatial_scale - FLOAT (默认值为
'1.0'
)乘法空间比例因子,用于将 ROI 坐标从它们的输入空间比例转换为池化时使用的比例,即输入特征图 X 相对于输入图像的空间比例。例如;默认值为 1.0f。
输入¶
X (异构) - T1
来自先前运算符的输入数据张量;形状为 (N, C, H, W) 的 4 维特征图,其中 N 是批次大小,C 是通道数,H 和 W 是数据的宽度和高度。
rois (异构) - T1
要池化的 RoI(兴趣区域);roi 是形状为 (num_rois, 4) 的 2 维输入,给出为 [[x1, y1, x2, y2], ...]。RoI 的坐标位于输入图像的坐标系中。每个坐标集与 'batch_indices' 输入一一对应。
batch_indices (异构) - T2
形状为 (num_rois,) 的 1 维张量,每个元素表示批次中相应图像的索引。
输出¶
Y (异构) - T1
RoI 池化输出,形状为 (num_rois, C, output_height, output_width) 的 4 维张量。第 r 个批次元素 Y[r-1] 是对应于第 r 个 RoI X[r-1] 的池化特征图。
类型约束¶
T1 在 (
tensor(bfloat16)
,tensor(double)
,tensor(float)
,tensor(float16)
) 中将类型约束为浮点张量。
T2 在 (
tensor(int64)
) 中将类型约束为整数张量。
RoiAlign - 16¶
版本¶
领域:
main
since_version:
16
function:
False
support_level:
SupportType.COMMON
shape inference:
True
此版本的运算符已从版本 16 开始可用。
摘要¶
在Mask R-CNN 论文中描述的兴趣区域 (RoI) 对齐操作。RoiAlign 使用输入张量 X 和兴趣区域 (roi) 在每个 RoI 上应用池化;它生成一个形状为 (num_rois, C, output_height, output_width) 的 4 维张量。
RoiAlign 被提议通过删除量化来避免错位,而量化是在将原始图像转换为特征图以及将特征图转换为 RoI 特征时发生的;在每个 ROI bin 中,采样位置的值是通过双线性插值直接计算的。
属性¶
coordinate_transformation_mode - STRING (默认值为
'half_pixel'
)允许的值为 'half_pixel' 和 'output_half_pixel'。使用值 'half_pixel' 将输入坐标按 -0.5(推荐的行为)进行像素偏移。使用值 'output_half_pixel' 忽略输入的像素偏移(对于向后兼容的行为,请使用此值)。
mode - STRING (默认值为
'avg'
)池化方法。支持两种模式:'avg' 和 'max'。默认值为 'avg'。
output_height - INT (默认值为
'1'
)默认值为 1;池化输出 Y 的高度。
output_width - INT (默认值为
'1'
)默认值为 1;池化输出 Y 的宽度。
sampling_ratio - INT (默认值为
'0'
)用于计算每个池化输出 bin 的输出值的插值网格中的采样点数。如果 > 0,则使用 exactly sampling_ratio x sampling_ratio 网格点。如果 == 0,则使用自适应数量的网格点(计算为 ceil(roi_width / output_width),高度也是如此)。默认值为 0。
spatial_scale - FLOAT (默认值为
'1.0'
)乘法空间比例因子,用于将 ROI 坐标从它们的输入空间比例转换为池化时使用的比例,即输入特征图 X 相对于输入图像的空间比例。例如;默认值为 1.0f。
输入¶
X (异构) - T1
来自先前运算符的输入数据张量;形状为 (N, C, H, W) 的 4 维特征图,其中 N 是批次大小,C 是通道数,H 和 W 是数据的宽度和高度。
rois (异构) - T1
要池化的 RoI(兴趣区域);roi 是形状为 (num_rois, 4) 的 2 维输入,给出为 [[x1, y1, x2, y2], ...]。RoI 的坐标位于输入图像的坐标系中。每个坐标集与 'batch_indices' 输入一一对应。
batch_indices (异构) - T2
形状为 (num_rois,) 的 1 维张量,每个元素表示批次中相应图像的索引。
输出¶
Y (异构) - T1
RoI 池化输出,形状为 (num_rois, C, output_height, output_width) 的 4 维张量。第 r 个批次元素 Y[r-1] 是对应于第 r 个 RoI X[r-1] 的池化特征图。
类型约束¶
T1 在 (
tensor(double)
,tensor(float)
,tensor(float16)
) 中将类型约束为浮点张量。
T2 在 (
tensor(int64)
) 中将类型约束为整数张量。
RoiAlign - 10¶
版本¶
领域:
main
since_version:
10
function:
False
support_level:
SupportType.COMMON
shape inference:
True
此版本的运算符已从版本 10 开始可用。
摘要¶
在Mask R-CNN 论文中描述的兴趣区域 (RoI) 对齐操作。RoiAlign 使用输入张量 X 和兴趣区域 (roi) 在每个 RoI 上应用池化;它生成一个形状为 (num_rois, C, output_height, output_width) 的 4 维张量。
RoiAlign 被提议通过删除量化来避免错位,而量化是在将原始图像转换为特征图以及将特征图转换为 RoI 特征时发生的;在每个 ROI bin 中,采样位置的值是通过双线性插值直接计算的。
属性¶
mode - STRING (默认值为
'avg'
)池化方法。支持两种模式:'avg' 和 'max'。默认值为 'avg'。
output_height - INT (默认值为
'1'
)默认值为 1;池化输出 Y 的高度。
output_width - INT (默认值为
'1'
)默认值为 1;池化输出 Y 的宽度。
sampling_ratio - INT (默认值为
'0'
)用于计算每个池化输出 bin 的输出值的插值网格中的采样点数。如果 > 0,则使用 exactly sampling_ratio x sampling_ratio 网格点。如果 == 0,则使用自适应数量的网格点(计算为 ceil(roi_width / output_width),高度也是如此)。默认值为 0。
spatial_scale - FLOAT (默认值为
'1.0'
)乘法空间比例因子,用于将 ROI 坐标从它们的输入空间比例转换为池化时使用的比例,即输入特征图 X 相对于输入图像的空间比例。例如;默认值为 1.0f。
输入¶
X (异构) - T1
来自先前运算符的输入数据张量;形状为 (N, C, H, W) 的 4 维特征图,其中 N 是批次大小,C 是通道数,H 和 W 是数据的宽度和高度。
rois (异构) - T1
要池化的 RoI(兴趣区域);roi 是形状为 (num_rois, 4) 的 2 维输入,给出为 [[x1, y1, x2, y2], ...]。RoI 的坐标位于输入图像的坐标系中。每个坐标集与 'batch_indices' 输入一一对应。
batch_indices (异构) - T2
形状为 (num_rois,) 的 1 维张量,每个元素表示批次中相应图像的索引。
输出¶
Y (异构) - T1
RoI 池化输出,形状为 (num_rois, C, output_height, output_width) 的 4 维张量。第 r 个批次元素 Y[r-1] 是对应于第 r 个 RoI X[r-1] 的池化特征图。
类型约束¶
T1 在 (
tensor(double)
,tensor(float)
,tensor(float16)
) 中将类型约束为浮点张量。
T2 在 (
tensor(int64)
) 中将类型约束为整数张量。