字符串归一化器¶
字符串归一化器 - 10¶
版本¶
域:
main
起始版本:
10
函数:
False
支持级别:
SupportType.COMMON
形状推断:
True
此版本的算子自 版本 10 起可用。
摘要¶
StringNormalization 执行用于基本清洗的字符串操作。此算子只有一个输入(表示为 X)和一个输出(表示为 Y)。此算子首先检查 X 中的元素,并移除“stopwords”属性中指定的元素。移除停用词后,根据“case_change_action”属性,中间结果可以进一步转换为小写、大写或保持不变。此算子仅接受 [C] 和 [1, C] 形状的张量。如果 X 中的所有元素都被删除,则输出将是字符串张量的空值,输入形状为 [C] 时形状为 [1],输入形状为 [1, C] 时形状为 [1, 1]。
属性¶
case_change_action - STRING (默认为
'NONE'
)字符串枚举,用于指定输出转换为小写/大写/保持不变。有效值为 “LOWER”、“UPPER”、“NONE”。默认为 “NONE”
is_case_sensitive - INT (默认为
'0'
)布尔值。标识 X 中的停用词是否区分大小写。默认为 false
区域设置 - STRING :
依赖于环境的字符串,表示根据该区域设置,输出字符串需要转换为大写/小写。默认为 en_US 或由实现决定的平台特定等效项。
停用词 - STRINGS :
停用词列表。如果未设置,则不会从 X 中移除任何词。
输入¶
X (异构) - tensor(string)
需要归一化的 UTF-8 字符串
输出¶
Y (异构) - tensor(string)
归一化的 UTF-8 字符串