StringNormalizer¶
StringNormalizer - 10¶
版本¶
**名称**: StringNormalizer (GitHub)
**域**:
main
**自版本**:
10
**函数**:
False
**支持级别**:
SupportType.COMMON
**形状推断**:
True
此版本的算子**自版本 10**起可用。
摘要¶
StringNormalization 执行字符串操作以进行基本清理。此算子只有一个输入(由 X 表示)和一个输出(由 Y 表示)。此算子首先检查 X 中的元素,并删除“stopwords”属性中指定的元素。删除停用词后,中间结果可以根据“case_change_action”属性进一步转换为小写、大写或仅返回。此算子仅接受 [C]- 和 [1, C]-张量。如果 X 中的所有元素都被删除,则如果输入形状为 [C],则输出将是形状为 [1] 的字符串张量的空值,如果输入形状为 [1, C],则输出形状为 [1, 1]。
属性¶
**case_change_action - STRING**(默认为
'NONE'
)字符串枚举,将输出转换为小写/大写/不变。有效值为“LOWER”、“UPPER”、“NONE”。默认为“NONE”
**is_case_sensitive - INT**(默认为
'0'
)布尔值。X 中停用词的识别是否区分大小写。默认为 false
locale - STRING :
环境相关的字符串,表示输出字符串需要根据其进行大小写转换的区域设置。默认为 en_US 或由实现决定平台特定的等效项。
stopwords - STRINGS :
停用词列表。如果未设置,则不会从 X 中删除任何词。
输入¶
**X** (异构) - tensor(string)
要规范化的 UTF-8 字符串
输出¶
**Y** (异构) - tensor(string)
UTF-8 规范化的字符串