StringNormalizer¶
StringNormalizer - 10¶
版本¶
- 域: - main
- since_version: - 10
- 函数: - False
- 支持级别: - SupportType.COMMON
- 形状推断: - True
此版本的操作符已在 版本 10 中提供。
摘要¶
StringNormalization 执行字符串操作以进行基本清理。此运算符只有一个输入(由 X 表示)和一个输出(由 Y 表示)。此运算符首先检查 X 中的元素,并删除“stopwords”属性中指定的元素。删除停用词后,中间结果可以根据“case_change_action”属性进一步转换为小写、大写或直接返回。此运算符仅接受 [C]- 和 [1, C]- 张量。如果 X 中的所有元素都被删除,则输出将是字符串张量的空值,如果输入形状为 [C],则形状为 [1],如果输入形状为 [1, C],则形状为 [1, 1]。
属性¶
- case_change_action - STRING (默认为 - 'NONE')- 字符串枚举,可将输出转换为小写/大写/不变。有效值为“LOWER”、“UPPER”、“NONE”。默认为“NONE” 
- is_case_sensitive - INT (默认为 - '0')- 布尔值。X 中停用词的识别是否区分大小写。默认为 false 
- locale - STRING : - 依赖于环境的字符串,表示需要根据该区域设置将输出字符串转换为大写/小写。默认值为 en_US 或平台特定的等效值(根据实现确定)。 
- stopwords - STRINGS : - 停用词列表。如果未设置,则不会从 X 中删除任何单词。 
输入¶
- X (异构) - tensor(string) - 要规范化的 UTF-8 字符串 
输出¶
- Y (异构) - tensor(string) - UTF-8 规范化后的字符串