元数据

除了在扩展文档中列出的核心元数据建议外,还有其他实验性元数据可帮助提供模型输入和输出的信息。

此元数据适用于给定类别的所有输入和输出张量。我们定义的第一个此类类别是:Image

动机

这种机制的动机是允许模型作者向模型使用者传达足够的信息,以便他们能够使用该模型。

在图像的情况下,提供了许多提供有效图像数据的选项。但是,使用特定的一组这些选项训练的消耗图像的模型必须在推理期间使用这些选项。

此提案的目标是提供足够的元数据,以便模型使用者可以在运行模型之前执行他们自己的特征化,并提供兼容的输入或检索输出并了解其格式。

图像类别定义

对于此模型中使用类型表示将自身声明为IMAGE的每个张量,您**应该**提供元数据来帮助模型使用者。请注意,使用此机制提供的任何元数据都对所有具有伴随表示的类型都是全局的。

键和值不区分大小写。

具体来说,我们在此定义以下图像元数据集

描述

Image.BitmapPixelFormat

字符串

指定像素数据的格式。每个枚举值定义一个通道顺序和位深度。可能的值

  • Gray8:1通道图像,像素数据为8bpp灰度。
  • Rgb8:3通道图像,通道顺序为RGB,像素数据为8bpp(无alpha)
  • Bgr8:3通道图像,通道顺序为BGR,像素数据为8bpp(无alpha)
  • Rgba8:4通道图像,通道顺序为RGBA,像素数据为8bpp(直接alpha)
  • Bgra8:4通道图像,通道顺序为BGRA,像素数据为8bpp(直接alpha)

Image.ColorSpaceGamma

字符串

指定使用的伽马颜色空间。可能的值

  • Linear:线性颜色空间,伽马 == 1.0
  • SRGB:sRGB颜色空间,伽马 == 2.2

Image.NominalPixelRange

字符串

指定存储像素值的范围。可能的值

  • NominalRange_0_255:[0…255] 用于8bpp样本
  • Normalized_0_1:[0…1] 像素数据以归一化形式存储
  • Normalized_1_1:[-1…1] 像素数据以归一化形式存储
  • NominalRange_16_235:[16…235] 用于8bpp样本